Skip to content

异构计算基础

CUDA 编程模型

  • Grid, Block, Thread 层次结构
  • Shared Memory 与 Global Memory 优化

算子开发

  • Triton 语言简介
  • 自定义 C++ 算子绑定

硬件加速

  • Tensor Core 原理
  • 混合精度计算 (FP16/BF16)

AI-HPC Organization