Skip to the content.

AI Infra 到底在做什么

限定范围

  1. 不去考虑算法上的内容 Do transformers need three projections? Systematic study of QKV variants
  2. 不考虑接入 openAI 的 api ,然后进一步开发应用的部分

计算机的几个基本思路

  1. 存储,计算,网络
  2. 加速经常性事件
  3. 并行:
    • Instruction-Level Parallelism and Its Exploitation
    • Data-Level Parallelism in Vector, SIMD, and GPU Architectures
    • Thread-Level Parallelism
    • Warehouse-Scale Computers to Exploit Request-Level and Data-Level Parallelism
  4. 带宽和延迟

基本工作原理

简单来说

  1. 收集全人类所有的知识
  2. 让权重矩阵吸收这些知识 (训练)
  3. 从权重矩阵中获取到你的答案 (推理)

  4. 训练框架
    • pytorch / jax
  5. 推理框架
    • sglang
    • vllm

核心中的核心

Attention Is All You Need 中的

$ "Attention"(Q, K, V) = softmax(frac(Q K^T, sqrt(d_k))) V $

计算机体系结构的重心转移

如果只要做一件事情,而且要做的绝对好,那么该如何办?

  1. 编译器
    • mlir
    • tvm
    • cutile
    • triton
  2. 计算
    • GPU
  3. 网络
    • nccl
    • nvlink
    • cxl
    • rdma
  4. 存储
    • mooncacke
    • 3fs

编译器

细聊:

计算

网络

存储

https://www.zhihu.com/question/1956876400624669581/answer/1958354775042139942

调研结果

资源合集

经典项目

本站所有文章转发 CSDN 将按侵权追究法律责任,其它情况随意。