Unity ComputeShader

· 2026-01-08 · # Shader # Unity

Unity 中 ComputeShader（计算着色器）的相关知识。

一、ComputeShader 核心概念

ComputeShader 是运行在 GPU 上的并行计算程序，脱离了传统的渲染管线，专门用于处理大规模的并行计算任务（比如数据处理、物理模拟、特效计算等），能充分利用 GPU 多核并行的优势，弥补 CPU 在海量数据计算上的性能不足。

关键术语

Dispatch（调度）：CPU 向 GPU 发送指令，启动 ComputeShader 的执行。
Thread Group（线程组）：GPU 执行的基本单位，每个组包含多个线程（Thread）。
Thread ID：每个线程的唯一标识，用于区分不同线程处理的数据。
ComputeBuffer（计算缓冲区）：CPU 和 GPU 之间的数据交互桥梁，用于传递需要计算的数据。

二、ComputeShader 基本使用流程

创建 ComputeShader 资源文件；
定义 ComputeBuffer 传递数据（CPU → GPU）；
设置 ComputeShader 的参数（缓冲区、常量等）；
调度 ComputeShader 执行（CPU 触发 GPU 计算）；
读取计算结果（GPU → CPU）；
释放缓冲区资源。

三、完整示例：用 ComputeShader 计算数组平方

下面通过一个简单示例，演示如何用 ComputeShader 计算一个数组中所有元素的平方，帮你理解核心流程。

步骤 1：创建 ComputeShader 文件

在 Unity 编辑器中右键 → Create → Compute Shader，命名为 SquareCompute，替换内容为：

// 计算着色器的核心逻辑，运行在GPU上
#pragma kernel CSMain

// 输入缓冲区：CPU传递过来的原始数据
RWStructuredBuffer<float> InputBuffer;
// 输出缓冲区：GPU计算后的数据
RWStructuredBuffer<float> OutputBuffer;

// 核函数（Kernel）：GPU并行执行的入口，名称需和C#中调用的一致
[numthreads(1,1,1)] // 每个线程组的线程数（x,y,z），这里简化为1个线程
void CSMain (uint3 id : SV_DispatchThreadID)
{
    // id.x 是当前线程的唯一ID，对应数组的索引
    // 确保不越界
    if (id.x < InputBuffer.Length)
    {
        OutputBuffer[id.x] = InputBuffer[id.x] * InputBuffer[id.x]; // 计算平方
    }
}

#pragma kernel CSMain：声明核函数入口，名称可自定义；
RWStructuredBuffer：可读写的结构化缓冲区，用于CPU和GPU数据交互；
[numthreads(1,1,1)]：定义每个线程组的线程数（x/y/z维度），常用配置如 [numthreads(64,1,1)]（充分利用GPU并行性）；
SV_DispatchThreadID：当前线程在全局的唯一ID，用于索引数据。

步骤 2：C# 脚本调用 ComputeShader

创建 C# 脚本 ComputeShaderDemo.cs，挂载到任意 GameObject 上：

using UnityEngine;

public class ComputeShaderDemo : MonoBehaviour
{
    // 引用创建的ComputeShader文件
    public ComputeShader squareCompute;

    void Start()
    {
        // 1. 定义需要计算的数据
        float[] inputData = new float[] { 1, 2, 3, 4, 5 };
        int dataLength = inputData.Length;

        // 2. 创建ComputeBuffer（CPU-GPU数据交互）
        // 参数1：数据长度；参数2：单个元素的字节大小（float=4字节）
        ComputeBuffer inputBuffer = new ComputeBuffer(dataLength, sizeof(float));
        ComputeBuffer outputBuffer = new ComputeBuffer(dataLength, sizeof(float));

        // 3. 将CPU数据写入输入缓冲区（CPU → GPU）
        inputBuffer.SetData(inputData);

        try
        {
            // 4. 获取ComputeShader的核函数索引（通过核函数名称）
            int kernelIndex = squareCompute.FindKernel("CSMain");

            // 5. 给ComputeShader设置参数（绑定缓冲区）
            squareCompute.SetBuffer(kernelIndex, "InputBuffer", inputBuffer);
            squareCompute.SetBuffer(kernelIndex, "OutputBuffer", outputBuffer);

            // 6. 调度ComputeShader执行（启动GPU计算）
            // 参数：线程组的数量（x/y/z），这里线程组数量=数据长度（因为每个线程组1个线程）
            squareCompute.Dispatch(kernelIndex, dataLength, 1, 1);

            // 7. 读取计算结果（GPU → CPU）
            float[] outputData = new float[dataLength];
            outputBuffer.GetData(outputData);

            // 8. 打印结果
            Debug.Log("原始数据：" + string.Join(", ", inputData));
            Debug.Log("平方结果：" + string.Join(", ", outputData));
        }
        finally
        {
            // 9. 释放缓冲区（必须释放，否则内存泄漏）
            inputBuffer.Release();
            outputBuffer.Release();
        }
    }
}

步骤 3：运行测试

在 Unity 编辑器中，将 SquareCompute 文件拖到脚本的 squareCompute 字段；

运行游戏，控制台会输出：

原始数据：1, 2, 3, 4, 5
平方结果：1, 4, 9, 16, 25

四、进阶注意事项

线程组优化：
- numthreads 的 x 维度建议设为 64/128/256（GPU warp size 通常为 32/64，对齐后效率更高）；
- Dispatch 的线程组数量 = 总数据量 / 每个线程组的线程数（向上取整），例如：
```
int threadGroupSize = 64; // 每个线程组64个线程
int threadGroupCount = Mathf.CeilToInt(dataLength / (float)threadGroupSize);
squareCompute.Dispatch(kernelIndex, threadGroupCount, 1, 1);
```
内存管理：ComputeBuffer 必须调用 Release() 释放，建议放在 finally 块中，避免异常导致内存泄漏；
适用场景：
- 适合大规模并行计算（如百万级粒子位置计算、图像像素处理、大数据排序）；
- 不适合小数据量计算（CPU-GPU 数据传输的开销可能超过计算收益）；
调试：Unity 编辑器的 Frame Debugger 和 Profiler 可查看 ComputeShader 的执行状态，也可在 ComputeShader 中用 Debug.Log()（需 Unity 2020+）。

总结

ComputeShader 是运行在 GPU 上的并行计算工具，核心优势是利用 GPU 多核处理海量数据；
核心流程：创建缓冲区 → 传递数据 → 设置参数 → 调度执行 → 读取结果 → 释放缓冲区；
优化关键：合理设置线程组大小（对齐 GPU warp size），避免不必要的 CPU-GPU 数据传输。

一、核心原理：GPU 并行计算的本质

CPU 是「串行优化」的架构（核心少，单核心算力强），而 GPU 是「并行架构」（数千个轻量级核心）。ComputeShader 让你把可拆分、无依赖的计算任务（比如数组每个元素独立计算、粒子位置独立更新）拆分成无数个「线程」，分配给 GPU 多个核心同时执行，从而实现数据级并行。

关键规则：

计算任务必须满足「无数据依赖」：每个线程的计算结果不依赖其他线程（比如数组元素平方、像素颜色独立调整）；
以「线程组（Thread Group）」为单位调度：GPU 不会单独调度单个线程，而是按「线程组」批量执行，需合理规划线程组大小。

二、标准化实现步骤（附完整可运行代码）

以「批量计算 100 万个随机数的平方」为例（典型的并行计算场景），完整步骤如下：

步骤 1：创建 ComputeShader 文件

右键 → Create → Compute Shader，命名为 ParallelCompute，替换内容为：

// 声明核函数入口（GPU并行执行的入口点）
#pragma kernel CSMain

// 可读写的结构化缓冲区：CPU传数据给GPU，GPU写结果回缓冲区
RWStructuredBuffer<float> DataBuffer;

// 定义每个线程组的线程数（x:64，y:1，z:1）
// 64 是 GPU 「Warp Size」（最小执行单元）的常见值，对齐后效率最高
[numthreads(64,1,1)]
void CSMain(uint3 id : SV_DispatchThreadID)
{
    // id.x 是当前线程的「全局唯一ID」，对应数组的索引
    // 防越界：确保线程ID不超过数据长度
    if (id.x < DataBuffer.Length)
    {
        // 核心并行计算逻辑：每个线程独立计算对应索引的元素平方
        DataBuffer[id.x] = DataBuffer[id.x] * DataBuffer[id.x];
    }
}

关键解释：

RWStructuredBuffer<float>：可读写的结构化缓冲区，是 CPU 和 GPU 之间的「数据桥梁」；
SV_DispatchThreadID：全局线程 ID，每个线程对应唯一的 ID，直接映射到数据索引；
[numthreads(64,1,1)]：每个线程组包含 64 个线程（x 维度），y/z 维度设为 1（单维度数据无需多维度）。

步骤 2：编写 C# 控制脚本（CPU 端逻辑）

创建 C# 脚本 ComputeParallelDemo.cs，挂载到任意 GameObject 上：

using UnityEngine;

public class ComputeParallelDemo : MonoBehaviour
{
    // 引用创建的ComputeShader文件（需在Inspector面板拖入）
    public ComputeShader parallelCompute;

    // 测试数据规模（100万个元素，体现并行优势）
    private const int DataCount = 1000000;

    void Start()
    {
        // 1. 初始化数据：生成100万个随机数（CPU端）
        float[] rawData = new float[DataCount];
        Random.InitState(0); // 固定随机种子，方便测试
        for (int i = 0; i < DataCount; i++)
        {
            rawData[i] = Random.Range(0f, 100f); // 0~100的随机数
        }

        // 2. 创建ComputeBuffer（CPU-GPU数据交互的核心）
        // 参数1：数据长度；参数2：单个元素的字节大小（float=4字节）
        ComputeBuffer dataBuffer = new ComputeBuffer(DataCount, sizeof(float));
        
        try
        {
            // 3. 将CPU数据写入缓冲区（CPU → GPU）
            dataBuffer.SetData(rawData);

            // 4. 配置ComputeShader
            // 4.1 获取核函数索引（通过核函数名称匹配）
            int kernelIndex = parallelCompute.FindKernel("CSMain");
            // 4.2 将缓冲区绑定到ComputeShader
            parallelCompute.SetBuffer(kernelIndex, "DataBuffer", dataBuffer);

            // 5. 调度GPU并行计算（核心步骤）
            // 计算线程组数量：总数据量 / 每个线程组的线程数（向上取整）
            int threadGroupSize = 64; // 必须和ComputeShader中numthreads的x值一致
            int threadGroupCount = Mathf.CeilToInt(DataCount / (float)threadGroupSize);
            // Dispatch(核函数索引, 线程组数量x, y, z)
            parallelCompute.Dispatch(kernelIndex, threadGroupCount, 1, 1);

            // 6. 读取GPU计算结果（GPU → CPU）
            float[] resultData = new float[DataCount];
            dataBuffer.GetData(resultData);

            // 7. 验证结果（打印前5个数据的原始值和计算后的值）
            Debug.Log("并行计算结果验证：");
            for (int i = 0; i < 5; i++)
            {
                Debug.Log($"索引{i}：原始值={rawData[i]:F2} → 平方值={resultData[i]:F2}");
            }
        }
        finally
        {
            // 8. 释放缓冲区（必须释放，否则内存泄漏）
            dataBuffer.Release();
        }
    }

    // 额外：确保场景退出时释放缓冲区（防内存泄漏）
    void OnDestroy()
    {
        if (parallelCompute != null)
        {
            // 清理ComputeShader的缓冲区引用
            int kernelIndex = parallelCompute.FindKernel("CSMain");
            parallelCompute.SetBuffer(kernelIndex, "DataBuffer", null);
        }
    }
}

步骤 3：运行测试

在 Unity 编辑器中，将 ParallelCompute.compute 文件拖到脚本的 parallelCompute 字段；

运行游戏，控制台会输出前 5 个数据的原始值和平方值，例如：

并行计算结果验证：
索引0：原始值=43.71 → 平方值=1910.56
索引1：原始值=88.42 → 平方值=7817.10
...

三、关键优化技巧（提升并行计算效率）

线程组大小优化
- 必须对齐 GPU 的「Warp Size」（通常为 32 或 64），建议设为 32/64/128/256；
- 线程组数量 = 总数据量 / 线程组大小（向上取整），避免线程闲置。
减少 CPU-GPU 数据传输
- CPU 和 GPU 之间的「数据拷贝」是性能瓶颈，尽量：
  - 批量传输数据（不要逐帧小批量传）；
  - 让数据尽量留在 GPU 端（比如计算后直接传给渲染管线，不回读 CPU）。
避免数据依赖
- 禁止编写「需要等待其他线程结果」的逻辑（比如计算数组第 i 个元素需要第 i-1 个元素的结果）；
- 若必须有依赖，拆分任务为「无依赖阶段 + 少量串行阶段」。
内存管理
- ComputeBuffer 必须调用 Release()，建议放在 finally 块或 OnDestroy 中；
- 重复使用缓冲区（比如帧循环中计算），不要每帧创建/释放，可初始化一次后复用。

四、常见应用场景

大规模粒子模拟（百万级粒子的位置、速度计算）；
图像/纹理处理（比如批量调整像素颜色、模糊处理）；
物理模拟（流体、布料的并行计算）；
大数据预处理（比如点云数据、AI 模型推理的前处理）。

总结

核心流程：初始化数据 → 创建 ComputeBuffer → 数据传 GPU → 配置 ComputeShader → 调度并行计算 → 读取结果 → 释放资源；
并行关键：任务无数据依赖 + 合理设置线程组大小（对齐 GPU Warp Size）；
性能核心：减少 CPU-GPU 数据传输，复用缓冲区，避免内存泄漏。