Compute OS
Compute OS 不是硬件清单,而是科学软件运行底座。
子系统
- Cluster:Slurm、Kubernetes、队列与配额策略。
- Network:IB、RDMA、NCCL 通信优化。
- Accelerator:GPU / NPU / DPU 资源治理。
- Compiler:Triton、TVM、CUDA 图优化。
- Observability:可观测性与可靠性工程。
目标
为 Scientific Software Factory 提供稳定、可扩展、可度量的算力操作系统。