加载中...

CUDA开始的GPU编程-第八章

发表于2024-11-01|更新于2025-01-13|GPU编程

|总字数:436|阅读时长:1分钟|浏览量:

第8章：板块与共享内存

为什么需要区分出板块的概念？

之前说到实际的线程数量就是板块数量(gridDim)乘以每板块线程数量(blockDim)。

那么为什么中间要插一个板块呢？感觉很不直观，不如直接说线程数量不就好了？

这还得从 GPU 的硬件架构说起。

2024-11-16_01-10-23

SM（Streaming Multiprocessors）与板块（block）

GPU 是由多个流式多处理器（SM）组成的。每个 SM 可以处理一个或多个板块。

SM 又由多个流式单处理器（SP）组成。每个 SP 可以处理一个或多个线程。

每个 SM 都有自己的一块共享内存（shared memory），他的性质类似于 CPU 中的缓存——和主存相比很小，但是很快，用于缓冲临时数据。还有点特殊的性质，我们稍后会讲。

通常板块数量总是大于 SM 的数量，这时英伟达驱动就会在多个 SM 之间调度你提交的各个板块。正如操作系统在多个 CPU 核心之间调度线程那样……

不过有一点不同，GPU 不会像 CPU 那样做时间片轮换——板块一旦被调度到了一个 SM 上，就会一直执行，直到他执行完退出，这样的好处是不存在保存和切换上下文（寄存器，共享内存等）的开销，毕竟 GPU 的数据量比较大，禁不起这样切换来切换去……

一个 SM 可同时运行多个板块，这时多个板块共用同一块共享内存（每块分到的就少了）。

而板块内部的每个线程，则是被进一步调度到 SM 上的每个 SP。

文章作者: Ming

文章链接: https://ming-z0.github.io/2024/11/01/CUDA/CUDA%E5%BC%80%E5%A7%8B%E7%9A%84GPU%E7%BC%96%E7%A8%8B/CUDA%E5%BC%80%E5%A7%8B%E7%9A%84GPU%E7%BC%96%E7%A8%8B-%E7%AC%AC8%E7%AB%A0/

版权声明: 本博客所有文章除特别声明外，均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 MINGの部落格！

相关推荐

WSL2快速搭建CUDA体验环境

前言 Windows11或Windows 10 21H2版本以上操作系统，具有 Nvidia 的 GPU，且已安装显卡驱动安装了WSL2，且准备好了Ubuntu或其他Linux操作系统之后的操作都将基于WSL2中的Ubuntu环境。环境验证打开Windows的Powershell，输入nvidia-smi检查自己的显卡驱动、CUDA支持。注意左上角的 CUDA version 12.6...

CUDA开始的GPU编程-第0章

CUDA开始的GPU编程前置条件：熟悉C/C++编程、熟悉STL、函数模板等 Nvidia GTX900及以上显卡、CUDA 11及以上 CMake 3.18及以上由于文本编辑器不持支CUDA代码块，文中CUDA代码将使用cpp代码块进行高亮显示，请注意区分。在开始之前，我想提醒读者，这篇博客将以工程应用的思路为主，不会深入探讨CUDA的底层原理。我们关注实际的使用案例和实践技巧。未来，我会逐步更新更为详尽的内容，敬请期待！第0章：Hello, world from GPU!CMake中启用CUDA支持123456789#...

CUDA开始的GPU编程-第一章

第一章：线程与板块三重尖括号里的数字刚刚说了 CUDA 的核函数调用时需要用 kernel<<<1, 1>>>() 这种奇怪的语法，这里面的数字代表什么意思呢？不妨把 <<<1, 1>>> 改成 <<<1, 3>>> 试试看。你会看到 Hello, world! 打印了三遍！ 123456789101112131415#include <cstdio>#include <cuda_runtime.h>__global__ void...

评论

TwikooLivere

数据加载中