AI Infra 调研笔记

AI INFRA
到底在做什么

Part 1 / 01

1. 存储、计算、网络

Storage

Nvme / fs / Database

Compute

GPU / CPU

Network

TCP / RDMA

思考计算机系统结构的三个核心

Part 1 / 02

2. 加速经常性事件

Part 1 / 03

3. 并行是加速的关键方法

ILP

Instruction-Level Parallelism

CPU 流水线、乱序执行、VLIW。单核内同时执行多条指令。

DLP

Data-Level Parallelism

Vector、SIMD、SIMT。同一条指令处理多个数据。

TLP

Thread-Level Parallelism

多线程、多核。

RLP / DLP+

Warehouse-Scale Parallelism

多台机器。

Part 1 / 04

4. 带宽与延迟

Bandwidth 带宽

Latency 延迟

不要小看了一个满载磁盘卡车的带宽

02

Part 2

AI 工作原理

训练、推理与 Attention

先理解 AI 在算什么，才能理解为什么 Infra 要这样设计。

Part 2 / 01

简单来说：AI 在做什么？

Step 1

收集知识

汇聚全人类所有可学习的文本、图像、视频、代码等数据。

Step 2

吸收知识

训练：让巨大的权重矩阵通过梯度下降吸收数据中的模式。

Step 3

提取答案

推理：给定输入，从权重矩阵中生成最可能的下一个 token。

训练框架

PyTorch、JAX —— 负责定义计算图、自动求导、分布式训练。

推理框架

vLLM、SGLang —— 负责低延迟、高吞吐地服务已训练好的模型。

Part 2 / 02

核心中的核心：Attention

Attention(Q, K, V) = softmax( (Q × K^T) / sqrt(d_k) ) × V

03

Part 3

体系结构重心转移

如果只做一件事，而且要做到最好

当 AI 成为主导负载，计算机体系结构的优化重心从通用 CPU 转向四大专项领域。

Part 3 / 01

编译器

为什么需要 AI 编译器？

同一算子需要在 NVIDIA、AMD、Intel、国产芯片上跑
手动写 CUDA 要求高，产出慢

代表项目

MLIR

模块化、可重用的编译器基础设施，支持多层级 IR。

Apache TVM

端到端深度学习编译器，自动搜索最优算子实现。

Triton

OpenAI 开发的 Python DSL，已成为 GPU Kernel 开发的事实标准。

TileLang

Domain-specific language designed to streamline the development of high-performance GPU/CPU/Accelerators kernels

Part 3 / 02

计算：从 CPU 到 GPU

CPU：少而强的核心

适合分支多、依赖复杂的任务，例如外卖的后台系统

GPU

适合大量数据，互相没有依赖，批量处理，典型应用就是矩阵乘法

Part 3 / 03

网络：从 TCP 到 RDMA

TCP / IP

可以构建十分灵活的网络控制面，往往需要 CPU 深度介入，用于普通用户接入到数据中心。

RDMA

用最快的速度在数据中心内部传输数据，绕过操作系统内核，直接读写远端内存。

Part 3 / 04

存储

3fs

移除掉 posix 语义，不在乎 crash 一致性，尽量绕过 CPU 等多余内容的参与

Thank You

Q & A

AI Infra 到底在做什么

AI INFRA到底在做什么