动机、参考资料、涉及内容

梳理学习资源及计划

资源

Pytorch 与分布式训练相关

大模型部署相关

量化

W8A8 指模型权重和激活值都量化到 8 bit int; W4A16 指模型权重量化到 4 bit int, 激活值保持为 FP 16

pytorch 原生量化

pytorch 中的量化公式

rapidapi

rapidapi: ToolLLM paper

pytorch compiler 相关

新闻

LLM 工具

博客

未归类

计划

  • 线路1 (优先): Rust 入门 + text-generation-inference/huggingface Tokenizer 库
  • 线路2: 《网络是怎样连接的》
  • 线路3 (torch.fx 优先): torch.fx + torchscript + torch.compile
  • 线路4 (优先): torch 原生支持的量化 + QAT + AWQ
  • 线路5: lmdeploy 的组装 batch 的一些细节
  • 线路6: DDP 与 FSDP
  • 线路7: 自动微分 + 陈天奇 dlsyscourse 课程
  • 线路8: Tensor Parallel + Pipeline Parallel (lmdeploy 等框架)