《OpenCL异构计算》讲解了OpenCL和如何为复杂的异构系统(多核处理器、GPU和APU)进行并行编程。OpenCL是为支持多平台设计的,受行业广泛支持,有助于帮助读者为异构环境编写高性能应用程序。
本书由并行计算和OpenCL社区中的领头人所撰写,可帮助读者体验OpenCL从而了解大量基础的并行算法。书中探索了内存空间、优化技术、图形的互操作、性能扩展,调试和性能剖析等。
本书读者对象为软件工程师、程序员、硬件工程师、高年级本科生/研究生,可供并行编程课程使用,包含有详细的案例,附有额外的网上练习和其他支持材料。
本书特色
· 解释OpenCL并行编程的原理和策略,从理解四大抽象模型开始,一直介绍到测试和调试完整的应用
· 覆盖图像处理、Web插件、粒子模拟、视频编辑和性能优化等主题
· 展示OpenCL如何映射到目标体系结构,并解释一些映射到各种体系结构的折衷方案
· 提出一系列基础编程技术,并通过若干个实例和案例分析来展示针对不同硬件平台的OpenCL扩展
本书配套网站提供本书相关信息、各章包含的示意图、范例代码、附加示例及勘误信息等,网址如下:
http://www.heterogeneouscompute.org/?page_id=7
《opencl异构计算》
第1章 并行编程入门 1
引言 1
opencl 1
本书目标 2
并行思维 2
并发编程模型和并行编程模型 6
线程和共享内存 9
消息传递通信 9
不同的并行粒度 10
数据共享和同步 11
本书结构 11
参考文献 12
扩展阅读和相关网站 13
第2章 opencl简介 15
引言 15
opencl标准 15
opencl 规范 15
kernel和opencl执行模型 16
平台和设备 19
.主机-设备交互 19
执行环境 21
上下文 22
命令队列 22
事件 23
内存对象 23
flush命令和finish命令 26
新建一个opencl程序对象 26
opencl的kernel 27
内存模型 29
编写kernel 31
向量相加实例的完整代码 32
小结 39
参考文献 39
第3章 opencl设备架构 41
引言 41
硬件权衡 41
性能随频率的提升及其限制 43
超标量执行 44
vliw 44
simd和向量处理 47
硬件多线程 48
多核架构 51
集成:片上系统和apu 53
高速缓存层次和内存系统 54
架构设计空间 55
cpu设计 56
gpu体系结构 60
apu和类apu的设计 63
小结 64
参考文献 65
第4章 opencl基本实例 67
引言 67
应用实例 67
简单的矩阵相乘 67
图像卷积实例 77
小结 85
第5章 opencl的并发与执行模型 87
引言 87
kernel,work_item,workgroup和
执行域 87
opencl同步:kernel,fence和barrier 90
队列与全局同步 94
opencl内存一致性 96
事件 96
命令barrier与marker 108
主机端内存模型 109
buffer对象 110
image对象 113
设备端内存模型 115
设备端宽松的内存一致性 116
全局内存 117
本地内存 119
常量内存 121
私有内存 122
小结 122
第6章 opencl在cpu/gpu
平台上的实现 123
引言 123
opencl在amd phenom ii x6上的
实现 123
opencl在amd radeon hd6970
gpu上的实现 128
多线程和内存系统 130
基于clause的simd执行 132
资源分配 137
opencl的内存性能 139
opencl全局内存 139
本地内存——软件管理的cache 142
小结 148
参考文献 149
第7章 opencl案例学习1:卷积 151
引言 151
计算卷积的kernel 151
选择合适的workgroup大小 151
将数据缓存到本地内存 154
执行卷积 160
小结 161
代码清单 162
主机端代码 162
kernel代码 166
参考文献 171
第8章 opencl案例学习2:
视频处理 173
引言 173
获得视频帧 173
cpu上的解码 174
在gpu上解码视频 175
在opencl中处理一个视频 179
在多个视频上处理多个不同effect 180
事件链 180
最终输出显示到屏幕 181
opencl/opengl协同工作能力 181
小结 184
第9章 opencl案例学习3:
直方图 185
引言 185
选择适量的work-group 185
选择最优的work-group大小 186
全局内存访存优化 187
使用原子操作计算局部直方图 189
本地内存访存优化 190
局部直方图的规约 192
全局规约 193
完整的kernel代码 193
性能和小结 196
第10章 opencl案例学习4:
混合粒子模拟 197
引言 197
计算概览 197
gpu实现 200
创建buffer 200
构造加速结构 201
计算碰撞 201
合成 202
cpu实现 202
负载均衡 203
性能和小结 204
生成均匀网格的kernel代码 205
粒子模拟的kernel代码 206
第11章 opencl扩展 211
引言 211
扩展机制概览 211
设备拆分 214
双精度 225
参考文献 233
第12章 opencl的性能剖析和
调试 235
引言 235
基于事件的剖析 236
amd app profiler 238
收集opencl程序轨迹 239
收集opencl gpu kernel性能
计数器 242
amd app kernelanalyzer 243
演示amd app profiler 245
启动amd app profiler 245
使用应用程序的轨迹数据
以发现性能瓶颈 245
使用gpu性能计数器发现kernel的
性能瓶颈 247
调试opencl应用程序 248
gdebugger概览 249
使用gdebugger调试并行opencl
应用程序 249
amd printf扩展 251
小结 253
第13章 webcl 255
引言 255
框架设计 256
webcl 实验性实现 257
firefox扩展 257
连接javascript和opencl 258
webcl动手练习 260
web照片编辑器 264
讨论 266
小结 268
参考文献 268
扩展阅读和相关网站 269
索引 271
HowtoBreakSoftwareisadeparturefromconventionaltestinginwhichtestersprepareawritt...
《口才与演讲技巧:领导脱稿演讲与即兴发言》内容简介:本书将从演讲的内容、演讲姿态、演讲声音、演讲辅助工具等多个方面全面帮助
现在是IT的时代,工作与生活都离不开IT。许多人都想了解软件原理,甚至编写一些简单的软件。通过《编程ING:人人都能学会程序设计
严肃游戏中个性化建模及认知机制研究 内容简介 本书以具有游戏特征但以非娱乐为目的的“严肃游戏”以及由此衍生的游戏式学习具备有效学习环境的关键特征, 能为学习者提...
《终极极客——“Android之父”安迪•鲁宾》内容简介:“极客”,美国俚语geek的音译,这个词代表着智慧超群,又代表着独特专行,从
《情绪流》内容简介:本书旨在以一个全新的视角来建构对人生的理解。本书从人类普遍面临的幸福难题或苦乐难题出发,经由对心智系统
本书系统地介绍了图像通信的基本理论和方法以及图像通信的前沿技术,内容包括三大部分:首先在图像压缩编码部分介绍了熵编码、预
《高绩效HR必备图表范例》内容简介:当今人力资源管理领域面临诸多新问题、新环境、新理念、新技术,各种名类繁杂的图书也大量涌现
《桂海论痕》内容简介:本书主要研究广西当代作家、作品。作者用颇具才情的笔墨,为读者勾勒了一幅广西当代文坛地图,脉络清晰,文
网络工程师考前串讲与模拟试卷 内容简介 本书紧扣新版考试大纲,以“考前串讲” “模拟试卷” “真题分析”的组织形式对网络工程师考试考生冲刺阶段的复习做出了指导。...
推荐系统开发实战 本书特色 本书是一本关于推荐系统从入门到进阶的读物,采用“理论 实践”的形式展开,不仅对各种推荐算法进行了介绍,还对算...
《微信营销36计》内容简介:这是一本介绍微信营销技巧的书。在《微信营销36计:你不可不知的赚钱、赢粉丝技巧 》书中我们微信给力的
《Linux应用大全:服务器架设》内容简介:Linux是一个免费的多用户、多任务的操作系统,其稳定性、安全性与网络功能特别显著。目前
《突破》内容简介:本书第一、二章侧重从理论角度分享有关TOC理论的定义和基本介绍;第三章为读者演绎TOC理论在工业制造企业的实际
设计是什么?创意又是什么?设计师是什么?跨界设计和快乐设计又是什么?世界平面设计大师靳埭强记录下累积多年的创作经验,公开
《放弃自己的一百零一种方法》内容简介:本书是作家孙未描写世间萌态的短文集。出租车上的妙手魔术师、深夜显灵的饭店老板、内力惊
《美国视觉设计学院用书——平面设计中的绘画、构成、色彩与空间样式》是一本对平面设计师实用绘画技法全解析的图书。绘画是设计
《深入浅出Python量化交易实战》内容简介:本书主要以国内A股市场为例,借助第三方量化交易平台,讲述了KNN、线性模型、决策树、支
《全能鼓手实战教程——648句技巧训练》内容简介:本书是一本鼓手必备的练习宝典。涵盖了爵士鼓、小军鼓等各类鼓乐学习过程中初级、
《思考+:6种力量成就更好的自己》内容简介:每天,有无数人在说“我想想”,却依然陷入简单重复中,庸庸碌碌;或者迷失在海量信息