Skip to content

AI-HPC.org

Main Navigation 首页技术指南社区共建 AI-HPC 智能助手关于我们

简体中文

English

简体中文

English

Appearance

Sidebar Navigation

💡 概论 (Intro)

知识体系概览

AI-HPC 架构全景图

🏗️ 基础设施 (Infrastructure)

01. AI 硬件与芯片

概览：硬件架构

02. 集群架构设计

概览：集群设计

CPU HPL 性能测试

GPU HPL 性能测试

AMD CPU 调优指南

内存带宽 (STREAM)

通用压测工具箱

03. 高性能网络

概览：IB 与 RoCE

RoCE AI Fabric 架构

HPC-X ClusterKit

IB 运维与调优

NCCL 性能测试

UFM 安装指南

Linux NAT 网关

04. 并行存储系统

概览：存储系统

存储高级特性

深度实战：BeeGFS 部署与调优

实战：GPFS ECE 集群部署

Lustre 部署指南

🖥️ 系统软件 (System Software)

05. 自动化装机

概览：PXE 与 Kickstart

Ubuntu Autoinstall

PXE + NFS 无盘启动

LD_LIBRARY_PATH 污染引发的启动故障

06. 调度与云原生

概览：K8s 与 Slurm

Slurm 部署 (Rocky)

Slurm 部署 (Ubuntu)

Slurm 用户指南

Slurm + Docker 实战

07. 异构计算与驱动

概览：异构计算

CUDA 安装指南

08. AI 编译器

概览：编译器技术

实战：Triton 入门

Triton 学习路径: 从入门到 FlashAttention

Intel oneAPI 安装

🧠 大模型技术 (LLM)

09. 深度学习框架

概览：框架原理

PyTorch Docker 深度学习环境搭建

PyTorch Docker 部署

10. 预训练模型

概览：预训练体系

DeepSeek 架构解析

RTP 混合架构解析

11. 分布式训练

概览：3D 并行技术

12. 推理引擎优化

概览：vLLM 与 TRT

Transformers vs vLLM 性能对比

实战：vLLM 原理解析

🚀 应用与科学计算 (Apps)

13. 行业应用落地

概览：RAG 与 Agent

K8s + RAGFlow 部署

14. 科学智能 (AI4S)

AI4S 新范式

生命科学 (Bio)

气象科学 (Weather)

流体力学 (CFD)

材料科学 (Materials)

页面导航

大模型预训练技术

Transformer 架构详解

Self-Attention (自注意力机制)
Multi-Head Attention
Feed Forward Network (FFN)

位置编码

绝对位置编码 (Sinusoidal)
旋转位置编码 (RoPE)

训练目标

Masked Language Modeling (MLM)
Causal Language Modeling (CLM, Next Token Prediction)

Pager

上一页PyTorch Docker 部署

下一页DeepSeek 架构解析

AI-HPC Organization

大模型预训练技术 ​

Transformer 架构详解 ​

位置编码 ​

训练目标 ​

大模型预训练技术

Transformer 架构详解

位置编码

训练目标