01 / 21
AI Infra 调研笔记

AI INFRA
到底在做什么

Part 1 / 01

1. 存储、计算、网络

Storage
Nvme / fs / Database
Compute
GPU / CPU
Network
TCP / RDMA

思考计算机系统结构的三个核心

Part 1 / 02

2. 加速经常性事件

Part 1 / 03

3. 并行是加速的关键方法

ILP

Instruction-Level Parallelism

CPU 流水线、乱序执行、VLIW。单核内同时执行多条指令。

DLP

Data-Level Parallelism

Vector、SIMD、SIMT。同一条指令处理多个数据。

TLP

Thread-Level Parallelism

多线程、多核。

RLP / DLP+

Warehouse-Scale Parallelism

多台机器。

Part 1 / 04

4. 带宽与延迟

Bandwidth 带宽

Latency 延迟

不要小看了一个满载磁盘卡车的带宽

02
Part 2

AI 工作原理

训练、推理与 Attention

先理解 AI 在算什么,才能理解为什么 Infra 要这样设计。
Part 2 / 01

简单来说:AI 在做什么?

Step 1

收集知识

汇聚全人类所有可学习的文本、图像、视频、代码等数据。

Step 2

吸收知识

训练:让巨大的权重矩阵通过梯度下降吸收数据中的模式。

Step 3

提取答案

推理:给定输入,从权重矩阵中生成最可能的下一个 token。

训练框架

PyTorch、JAX —— 负责定义计算图、自动求导、分布式训练。

推理框架

vLLM、SGLang —— 负责低延迟、高吞吐地服务已训练好的模型。

Part 2 / 02

核心中的核心:Attention

Attention(Q, K, V) = softmax( (Q × K^T) / sqrt(d_k) ) × V
03
Part 3

体系结构重心转移

如果只做一件事,而且要做到最好

当 AI 成为主导负载,计算机体系结构的优化重心从通用 CPU 转向四大专项领域。
Part 3 / 01

编译器

为什么需要 AI 编译器?

  • 同一算子需要在 NVIDIA、AMD、Intel、国产芯片上跑
  • 手动写 CUDA 要求高,产出慢

代表项目

MLIR

模块化、可重用的编译器基础设施,支持多层级 IR。

Apache TVM

端到端深度学习编译器,自动搜索最优算子实现。

Triton

OpenAI 开发的 Python DSL,已成为 GPU Kernel 开发的事实标准。

TileLang

Domain-specific language designed to streamline the development of high-performance GPU/CPU/Accelerators kernels

Part 3 / 02

计算:从 CPU 到 GPU

CPU:少而强的核心

适合分支多、依赖复杂的任务,例如外卖的后台系统

GPU

适合大量数据,互相没有依赖,批量处理,典型应用就是矩阵乘法

Part 3 / 03

网络:从 TCP 到 RDMA

TCP / IP

可以构建十分灵活的网络控制面,往往需要 CPU 深度介入,用于普通用户接入到数据中心。

RDMA

用最快的速度在数据中心内部传输数据,绕过操作系统内核,直接读写远端内存。

Part 3 / 04

存储

3fs

移除掉 posix 语义,不在乎 crash 一致性,尽量绕过 CPU 等多余内容的参与

Thank You

Q & A

AI Infra 到底在做什么