AI Infra 调研笔记
AI INFRA
到底在做什么
Part 1 / 01
1. 存储、计算、网络
Storage
Nvme / fs / Database
Compute
GPU / CPU
Network
TCP / RDMA
思考计算机系统结构的三个核心
Part 1 / 02
2. 加速经常性事件
Part 1 / 03
3. 并行是加速的关键方法
ILP
Instruction-Level Parallelism
CPU 流水线、乱序执行、VLIW。单核内同时执行多条指令。
DLP
Data-Level Parallelism
Vector、SIMD、SIMT。同一条指令处理多个数据。
TLP
Thread-Level Parallelism
多线程、多核。
RLP / DLP+
Warehouse-Scale Parallelism
多台机器。
Part 1 / 04
4. 带宽与延迟
Bandwidth 带宽
Latency 延迟
不要小看了一个满载磁盘卡车的带宽
02
Part 2
AI 工作原理
训练、推理与 Attention
先理解 AI 在算什么,才能理解为什么 Infra 要这样设计。
Part 2 / 01
简单来说:AI 在做什么?
Step 1
收集知识
汇聚全人类所有可学习的文本、图像、视频、代码等数据。
Step 2
吸收知识
训练:让巨大的权重矩阵通过梯度下降吸收数据中的模式。
Step 3
提取答案
推理:给定输入,从权重矩阵中生成最可能的下一个 token。
训练框架
PyTorch、JAX —— 负责定义计算图、自动求导、分布式训练。
推理框架
vLLM、SGLang —— 负责低延迟、高吞吐地服务已训练好的模型。
Part 2 / 02
核心中的核心:Attention
Attention(Q, K, V) = softmax( (Q × K^T) / sqrt(d_k) ) × V
03
Part 3
体系结构重心转移
如果只做一件事,而且要做到最好
当
AI 成为主导负载,计算机体系结构的优化重心从通用 CPU 转向四大专项领域。
Part 3 / 01
编译器
为什么需要 AI 编译器?
- 同一算子需要在 NVIDIA、AMD、Intel、国产芯片上跑
- 手动写 CUDA 要求高,产出慢
代表项目
MLIR
模块化、可重用的编译器基础设施,支持多层级 IR。
Apache TVM
端到端深度学习编译器,自动搜索最优算子实现。
Triton
OpenAI 开发的 Python DSL,已成为 GPU Kernel 开发的事实标准。
TileLang
Domain-specific language designed to streamline the development of high-performance GPU/CPU/Accelerators kernels
Part 3 / 02
计算:从 CPU 到 GPU
CPU:少而强的核心
适合分支多、依赖复杂的任务,例如外卖的后台系统
GPU
适合大量数据,互相没有依赖,批量处理,典型应用就是矩阵乘法
Part 3 / 03
网络:从 TCP 到 RDMA
TCP / IP
可以构建十分灵活的网络控制面,往往需要 CPU 深度介入,用于普通用户接入到数据中心。
RDMA
用最快的速度在数据中心内部传输数据,绕过操作系统内核,直接读写远端内存。
Part 3 / 04
存储
3fs
移除掉 posix 语义,不在乎 crash 一致性,尽量绕过 CPU 等多余内容的参与
Thank You
Q & A
AI
Infra 到底在做什么