Udacity并行计算课程笔记-The GPU Programming Model
一、传统的提高计算速度的方法
- faster clocks (设置更快的时钟)
- more work over per clock cycle(每个时钟周期做更多的工作)
- more processors(更多处理器)
二、CPU & GPU
- CPU更加侧重执行时间,做到延时小
- GPU则侧重吞吐量,能够执行大量的计算
更形象的理解就是假如我们载一群人去北京,CPU就像那种敞篷跑车一样速度贼快,但是一次只能坐两个人,而GPU就像是大巴车一样,虽然可能速度不如跑车,但是一次能载超多人。
总结起来相比于CPU,GPU有如下特点:
- 有很多计算单元,可以在一起执行大量的计算
- 显示并行计算模型(explicitly parallel programming model),这个会在后面深度讨论
- GPU是对吞吐量进行优化,而不是吞吐量
三、cuda登场
以前我们所写的代码都只能运行在CPU上,那么如果想运行在GPU上该怎么实现呢?
这时候就需要CUDA大大登场了!!!
cuda执行原理是CPU运行主程序,向GPU发送指示告诉它该做什么,那么系统就需要做如下的事情:
- 1.把CPU内存中的数据转移到GPU的内存中
- 2.将数据从GPU移回CPU (把数据从一个地方移到另一个地方命令为cudaMemcpy)
- 3.在GPU上分配内存,在C语言中该命令是malloc,而在cuda中则是cudaMalloc
- 4.在GPU上调用以并行方式计算的程序,这些程序叫做内核。
练习题:GPU可以做如下哪些事?
正确选项解释:
- 选项2:回应CPU发来的请求,即对应上面的步骤2——将数据从GPU移回CPU
- 选项4:回应CPU发来的请求,即对应上面的步骤1——把CPU内存中的数据转移到GPU的内存中
- 选项5:计算由CPU调用的内核运算。
四、A CUDA Program
典型的GPU算法流程:
- CPU在GPU上分配存储空间(cudaMalloc)
- CPU将输入数据拷贝到GPU(cudaMemcpy)
- CPU调用某些内核来监视这些在GPU上处理这个数据的内核(kernel launch)
- CPU将GPU计算得到的结果复制回CPU(cudaMemcpy)
五、定义GPU计算
GPU能做的事是:
- 有效的启动大量线程
- 并行的运行上面启动的大量线程,而不是运行一个有很多并行工作的线程,也不是运行一个线程更加快速。
六、CPU&GPU计算原理区别
下面将计算数组[0,1,2……,63]每个元素平方来比较CPU和GPU计算原理的区别,以及具体代码实现。
CPU
for(i=0;i<64;i++){
out[i] = in[i] * in[i];
}
该段代码在CPU中执行,只有一个线程,它会循环64次,每次迭代做一个计算。
GPU
实现代码:
#include <stdio.h>
__global__ void cube(float * d_out, float * d_in){
// Todo: Fill in this function
}
int main(int argc, char ** argv) {
const int ARRAY_SIZE = 64;
const int ARRAY_BYTES = ARRAY_SIZE * sizeof(float);
// generate the input array on the host
float h_in[ARRAY_SIZE];
for (int i = 0; i < ARRAY_SIZE; i++) {
h_in[i] = float(i);
}
float h_out[ARRAY_SIZE];
// declare GPU memory pointers
float * d_in;
float * d_out;
// allocate GPU memory
cudaMalloc((void**) &d_in, ARRAY_BYTES);
cudaMalloc((void**) &d_out, ARRAY_BYTES);
// transfer the array to the GPU
cudaMemcpy(d_in, h_in, ARRAY_BYTES, cudaMemcpyHostToDevice);
// launch the kernel
cube<<<1, ARRAY_SIZE>>>(d_out, d_in);
// copy back the result array to the CPU
cudaMemcpy(h_out, d_out, ARRAY_BYTES, cudaMemcpyDeviceToHost);
// print out the resulting array
for (int i =0; i < ARRAY_SIZE; i++) {
printf("%f", h_out[i]);
printf(((i % 4) != 3) ? "t" : "n");
}
cudaFree(d_in);
cudaFree(d_out);
return 0;
}
代码拆解分析:
1.变量命名规则
在编写cuda代码时,需要遵守如下规则,这样可以避免犯不必要的错误。 CPU的变量以h_开头(host),而GPU的变量以d_开头(device)。
2.定义内核函数
__global__ void square(float *d_out, float *d_in){
int idx = threadIdx.x;
float f = d_in[idx];
d_out[idx] = f * f;
}
通过 global 定义的函数可以让cuda知道这是一个内核函数。
函数第一行作用是通过内置的线程索引threadIdx获得当前线程的索引。另外threadIdx是c语言中的struct,它有3名成员,分别是 .x,.y,.z 。如果该线程是第一个线程,则threadIdx.x返回的值是0。
3.数据转移cudaMemcpy
代码片段
// 将数据转移到GPU
cudaMemcpy(d_in, h_in, ARRAY_BYTES, cudaMemcpyHostToDevice);
// 调用内核
square<<<1, ARRAY_SIZE>>>(d_out, d_in);
// 将结果传回CPU
cudaMemcpy(h_out, d_out, ARRAY_BYTES, cudaMemcpyDeviceToHost);
注意下面函数的第三个参数direction有三种选项:
cudaMemcpy(destination, source, size, direction)
分别是:
- cudaMemcpyHostToDevice
- cudaMemcpyDeviceToHost
- cudaMemcpyDeviceToDevice
4.调用内核 square<<<1, 64>>>
另外在解释一下如上函数各参数的含义:
第一个参数1表示需要分配的块的数量为1, 第二个参数64表示每一块有64个线程。 所以假设我们需要1280个线程,我们就可以这样定义:
square<<<10,128>>>(param1, param2);
或者
square<<<5,256>>>(param1, param2);
BUT!!! 要注意不能像下面这样定义,因为一个块的线程数一般没那么大,一般只有1024.
square<<<1,1280>>>(param1, param2);
还需要知道的是上面介绍的两个参数其实可以是二维或者三维的,即 square<<<1,64>>> 等效为 square<<>> ,但是dim3(64,1,1)=dim3(64)=64。
例如我们有一个128*128的图片,现在需要对每一个像素进行计算,我们可以是 <<>>,也可以是<<>>
总结起来核函数的调用的完整形式是
kernel<<<dim3(bx,by,bz), dim3(tx,ty,tz), shmem>>>(...)
第一个参数表示网络块的维数(bx * by * bz), 第二个参数表示每块所含有的线程数(tx * ty * tz) 第三个参数一般默认为0,它是以字节表示的每个线程块分配的共享内存量
- 3101: N皇后
- 算法模板——线性欧拉函数
- jdbc基础 (一) MySQL的简单使用
- 小白博客 爆破内网mysql数据库root密码脚本代码
- 2818: Gcd
- 1688: [Usaco2005 Open]Disease Manangement 疾病管理
- 通过MySQL自动同步刷新Redis
- 13.MySQL(一) 数据库简介mysql安装数据库操作Mysql数据类型存储引擎
- 3314: [Usaco2013 Nov]Crowded Cows
- BZOJ4766: 文艺计算姬
- 14.MySQL(二) 数据之表操作表内容操作Mysql 连接事务外键
- 3450: Tyvj1952 Easy
- SP104 HIGH - Highways
- 1664: [Usaco2006 Open]County Fair Events 参加节日庆祝
- JavaScript 教程
- JavaScript 编辑工具
- JavaScript 与HTML
- JavaScript 与Java
- JavaScript 数据结构
- JavaScript 基本数据类型
- JavaScript 特殊数据类型
- JavaScript 运算符
- JavaScript typeof 运算符
- JavaScript 表达式
- JavaScript 类型转换
- JavaScript 基本语法
- JavaScript 注释
- Javascript 基本处理流程
- Javascript 选择结构
- Javascript if 语句
- Javascript if 语句的嵌套
- Javascript switch 语句
- Javascript 循环结构
- Javascript 循环结构实例
- Javascript 跳转语句
- Javascript 控制语句总结
- Javascript 函数介绍
- Javascript 函数的定义
- Javascript 函数调用
- Javascript 几种特殊的函数
- JavaScript 内置函数简介
- Javascript eval() 函数
- Javascript isFinite() 函数
- Javascript isNaN() 函数
- parseInt() 与 parseFloat()
- escape() 与 unescape()
- Javascript 字符串介绍
- Javascript length属性
- javascript 字符串函数
- Javascript 日期对象简介
- Javascript 日期对象用途
- Date 对象属性和方法
- Javascript 数组是什么
- Javascript 创建数组
- Javascript 数组赋值与取值
- Javascript 数组属性和方法
- 【剑指offer】48.不用加减乘除做加法
- Gradle 6.6 发布,引入配置缓存特性,大幅提升构建性能
- 61.Vue 结合webpack使用vue-router
- 拨云见日:揭开ORA-00600:[4193]的神秘面纱
- AUCell | 识别单细胞对“基因集”的响应
- 未来十年,机器学习工程师会消失吗?
- Get了!用Python制作数据预测集成工具 | 附代码
- 定时任务最简单的3种实现方法(超好用)
- Swift:UICollectionReusableView xib创建报错
- echo-高性能,可扩展,极简的Go Web框架
- 小程序文字显示换行
- css Backgroud-clip (文字颜色渐变)
- 微信小程序 buton清除默认样式
- 正则replace 回调函数里接收的参数是什么?
- 微信小程序使用pako.js的踩坑笔记