English

Appearance

中文

Sidebar Navigation

Introduction

Overview

Architecture

Infrastructure

01. Hardware & Chips

Overview

02. Cluster Architecture

Overview

CPU HPL Benchmark

GPU HPL Benchmark

AMD Tuning Guide

STREAM Benchmark

Benchmark Toolkit

03. Network (IB/RoCE)

Overview

RoCE AI Fabric

ClusterKit Testing

IB Admin Guide

NCCL Test

UFM Install

Linux NAT Gateway

InfiniBand Tuning for AI

04. Storage Systems

Overview

Advanced Features

Deep Dive: BeeGFS Deployment

Practical: GPFS ECE Deployment

Lustre Install

System Software

05. Automated Provisioning

Overview

Ubuntu Autoinstall

Diskless Boot (PXE+NFS)

Boot Failure caused by LD_LIBRARY_PATH

06. Cloud & Scheduling

Overview

Slurm Install (Rocky)

Slurm Install (Ubuntu)

Slurm User Guide

Slurm + Docker

07. Heterogeneous Computing

Overview

CUDA Install

08. AI Compiler

Overview

Triton 101

Deep Dive into OpenAI Triton

oneAPI Install

LLM Technology

09. Frameworks

Overview

PyTorch Docker Env Setup

PyTorch Docker

10. Pre-trained Models

Overview

Deep Dive: DeepSeek Arch

RTP Hybrid

11. Distributed Training

Overview

12. Inference Engines

Overview

Transformers vs vLLM Benchmark

Deep Dive: vLLM Principles

Applications

13. Industry Apps

Overview

RAGFlow + K8s

14. AI for Science

Overview

Life Science

Weather

CFD

Materials

On this page

Heterogeneous Computing

CUDA Programming Model

Grid, Block, Thread hierarchy
Shared Memory vs Global Memory optimization

Operator Development

Introduction to Triton
Custom C++ Operator binding

Hardware Acceleration

Tensor Core principles
Mixed Precision (FP16/BF16)

Pager

Previous pageSlurm + Docker

Next pageCUDA Install

AI-HPC Organization · Contact: openaihpc@gmail.com

Heterogeneous Computing ​

CUDA Programming Model ​

Operator Development ​

Hardware Acceleration ​

Heterogeneous Computing

CUDA Programming Model

Operator Development

Hardware Acceleration