GPU的工作原理

· 2026-01-08 · # GPU # 知识库

GPU的核心工作原理是大规模并行计算，通过SIMT（单指令多线程）架构与专用硬件流水线，将复杂任务拆解为海量可同步执行的子任务，由数千个计算单元并行完成，以高吞吐量处理图形渲染、AI训练等数据密集型工作。

GPU与CPU的核心差异在于设计目标与硬件组织，如下表所示：

组件	GPU特点	CPU特点	作用
核心数量	数千个小型核心（如CUDA Core），组成多个SM/CU	4–64个强核心，多级缓存与复杂控制单元	GPU适合高吞吐量并行；CPU适合低延迟串行
计算单元	SM（流多处理器）/CU（计算单元），含通用计算、光追、AI专用核心	单核强算力，复杂分支预测与乱序执行	GPU统一调度线程束；CPU快速响应复杂指令
内存系统	高带宽VRAM（GDDR6X/HBM3），大显存容量	多级缓存（L1/L2/L3），依赖系统内存	GPU减少数据交换延迟；CPU优化缓存命中率
调度模型	线程束（Warp，通常32线程）锁步执行，隐藏延迟	单线程优先，分支预测与推测执行	GPU通过线程级并行掩盖内存延迟；CPU通过指令级并行提升效率

图形渲染是GPU的经典任务，分为以下阶段，各阶段由专用硬件并行处理：

顶点处理：顶点着色器（Vertex Shader）并行处理3D模型的顶点数据，完成模型变换、视图变换与投影变换，输出裁剪空间顶点。现代GPU还支持曲面细分（Tessellation）以提升模型细节。
几何处理：几何着色器（Geometry Shader）可选，对图元（如三角形）进行拓扑修改（如增删顶点），输出新的图元。
光栅化：将裁剪后的三角形转换为像素片段（Fragment），通过扫描线算法遍历像素，并使用Z - buffer进行深度测试，剔除被遮挡的片段。
像素处理：像素着色器（Pixel Shader）并行计算每个片段的颜色、纹理映射、光照、阴影等，结合纹理单元（TMU）进行采样与过滤，输出最终像素值。
后处理与输出：执行抗锯齿（MSAA/TAA）、HDR、景深等特效，将帧缓存数据输出到显示器。

GPU不仅用于图形，还通过GPGPU加速科学计算、AI训练等任务，其流程如下：

任务分解：通过CUDA/OpenCL等框架，将计算任务划分为大量独立线程，组织成线程块（Block）与线程网格（Grid）。
线程调度：Warp调度器将线程块分配到SM上，每个Warp以锁步方式执行同一指令，处理不同数据（SIMT模型）。
数据管理：通过共享内存（Shared Memory）实现线程间通信，利用全局内存（Global Memory）存储输入/输出数据，依赖高带宽VRAM提升数据吞吐量。
结果回写：计算完成后，将结果从GPU显存复制回系统内存，供CPU进一步处理或输出。

现代GPU集成专用硬件以加速新兴任务：

光线追踪核心（RT Core）：专用硬件加速光线与三角形求交计算，实现实时光线追踪，提升阴影、反射、折射的真实感。
张量核心（Tensor Core）：专为矩阵运算优化，加速AI训练中的卷积、矩阵乘法，支持混合精度计算（FP16/FP32/INT8），并赋能DLSS等超分辨率技术。

GPU的工作原理可概括为：以大规模并行架构为基础，通过专用硬件流水线与高效线程调度，将复杂任务拆解为海量子任务并行处理，兼顾图形渲染的实时性与通用计算的高吞吐量。无论是游戏中的光影渲染，还是AI训练中的矩阵运算，GPU都凭借其并行优势，成为现代计算的核心加速部件。