AI-HPC 知识体系概览
本文档旨在构建一个垂直整合的知识图谱,连接底层的 High Performance Computing (HPC) 基础设施与上层的 Artificial Intelligence (AI) 应用。
🏗️ 第一部分:基础设施 (Infrastructure)
核心目标: 构建高带宽、低延迟、大规模并行的算力底座。
- 01. AI 硬件与芯片: GPU (H100/A100), NPU, 异构计算架构。
- 02. 集群架构设计: NVIDIA SuperPod, HPL/STREAM 压测, 拓扑设计。
- 03. 高性能网络: InfiniBand, RoCE v2, NCCL 通信库优化。
- 04. 并行存储系统: Lustre, GPUDirect Storage (GDS), 高并发 IO 模式。
🖥️ 第二部分:系统软件 (System Software)
核心目标: 提高资源利用率,屏蔽底层硬件差异。
- 05. 自动化装机: PXE, Cobbler, Ubuntu Autoinstall (Cloud-init)。
- 06. 调度与云原生: Kubernetes (Volcano), Slurm 作业调度, Docker 容器化。
- 07. 异构计算与驱动: NVIDIA Driver, CUDA Toolkit, GPU 虚拟化 (MIG)。
- 08. AI 编译器: OpenAI Triton, TVM, MLIR, 算子融合技术。
🧠 第三部分:大模型技术 (LLM Technology)
核心目标: 实现万卡集群上的高效训练与推理。
- 09. 深度学习框架: PyTorch 2.x, DeepSpeed, Megatron-LM。
- 10. 预训练模型体系: Transformer 架构, MoE (混合专家), 预训练数据流。
- 11. 分布式训练: 3D 并行 (数据/流水线/张量), ZeRO 显存优化, 混合精度。
- 12. 推理与部署: vLLM (PagedAttention), TensorRT-LLM, 量化 (AWQ/GPTQ)。
🚀 第四部分:应用与科学计算 (Applications)
核心目标: 赋能垂直行业,探索科学新范式。
- 13. 行业应用落地: RAG (检索增强生成), Agent (智能体), 私有化部署。
- 14. AI for Science:
