简体中文
Appearance
从芯片底层到大模型应用,构建人工智能与高性能计算的完整知识图谱
打通 AI 与 HPC 边界,融合 GPU 集群、RDMA 网络与编译器、推理引擎技术。
探索万卡集群调度、算子融合优化、FlashAttention 与 Megatron-LM 并行原理。
涵盖 LLM 预训练、SFT 微调、长序列推理加速及 RAG/Agent 行业应用。
连接 Infra 基础设施与 AI 上层应用的桥梁
H100/A100 架构解析、NPU 异构计算、HBM 存储技术
SuperPod 拓扑、IB/RoCE 高速网络、NCCL 通信库优化
Kubernetes + Volcano、Slurm 调度、Docker 容器化
OpenAI Triton 实战、TVM 优化、算子融合技术
3D 并行 (TP/PP/DP)、ZeRO 显存优化、混合精度训练
vLLM PagedAttention、TensorRT-LLM、模型量化