课程从零开始构建 GPU 并行计算思维,通过“问题驱动→分析瓶颈→优化实现→定量评估”的实战闭环逻辑,逐步深入 CUDA 核心知识与工业级优化技术。课程将深入 GPU 硬件架构与编程模型,并重点攻克性能瓶颈分析与调优:包括 Roofline 模型诊断算子的访存/计算瓶颈、内存合并与向量化优化、共享内存分块策略、Bank Conflict 规避、Swizzling 索引重构等关键技术。课程深度结合英伟达官方工具链(Nsight Compute/Systems)进行性能热点定位与优化验证。
在此之上,课程将扩展至系统级优化:通过多流并行、CUDA Graph 静态调度等实现计算-传输重叠,运用动态并行处理不规则任务,实践多 GPU 协同通信等。最后聚焦工业部署场景,涵盖低精度量化、 PTX 指令级调优和 CUDA 官方库应用等技能。
通过本课程学员可以:
共 6 小时
无
需 C++ 基础,最好有计算机体系结构的背景知识