(LTS) 资源与计划
动机、参考资料、涉及内容
梳理学习资源及计划
资源
Pytorch 与分布式训练相关
- Pytorch tutorial: https://pytorch.org/tutorials
- 博客园(罗西的思考), 包含了一些关于分布式机器学习的博客(最大的优点是注明了原文的出处), 博主还出了本书: https://www.cnblogs.com/rossiXYZ/
- deepspeed
- ColossalAI
大模型部署相关
- text-generation-inference: huggingface 出品
- vLLM
- deepspeed: Microsoft 出品
- DeepSpeed-MII: Microsoft 出品, 也许是目前最快的?
- lmdeploy: mmlab 出品
- FastTransformer: Nvidia 出品
- TensorRT-LLM: Nvidia 出品, 似乎是 fastertransformer 的替代, 也许是目前最快的?
- triton-inference-server: Nvidia 出品
量化
W8A8
指模型权重和激活值都量化到 8 bit int; W4A16
指模型权重量化到 4 bit int, 激活值保持为 FP 16
pytorch 原生量化
pytorch 中的量化公式
- blog (2020/3/26, pytorch 1.4): https://pytorch.org/blog/introduction-to-quantization-on-pytorch/
- docs:
- API: https://pytorch.org/docs/stable/quantization-support.html
- tutorial:
rapidapi
pytorch compiler 相关
新闻
- (2024/01/25) OpenAI 模型更新: https://openai.com/blog/new-embedding-models-and-api-updates: 文本嵌入模型
text-embedding-3-large
和text-embedding-3-small
, gpt 系列:gpt-3.5-turbo-0125
和gpt-4-0125-preview
, 合规检测模型(一个多分类模型, 免费使用):text-moderation-007
- (2024/02/13) OpenAI ChatGPT 聊天界面增加记忆管理等新功能: https://openai.com/blog/memory-and-new-controls-for-chatgpt
- (2024/02/09) Gemini Ultra: https://deepmind.google/technologies/gemini/#gemini-1.0
- (2024/02/14) Gemini 1.5: https://blog.google/technology/ai/google-gemini-next-generation-model-february-2024/
- (2024/02/16) OpenAI 文生视频: https://openai.com/sora
LLM 工具
- ChatGPT: https://chat.openai.com/chat
- Claude: https://claude.ai/chat
- Mistral (Le Chat): https://chat.mistral.ai/chat
- Perplexity (可联网): https://www.perplexity.ai
- Popai (基于 gpt-3.5/gpt-4, dalle 的文献阅读应用): https://www.popai.pro/
博客
-
Let’s build a [compiler web server] from scratch: https://ruslanspivak.com/
未归类
- Langchain-Chatchat: https://github.com/chatchat-space/Langchain-Chatchat, 主要可以关注前端写法, 中文文本切分, 以及对 Langchain 的使用, asyncio 的用法等
- 一门深度学习系统课程: https://github.com/chenzomi12/DeepLearningSystem, B站/youtube 上还有视频课程
计划
- 线路1 (优先): Rust 入门 + text-generation-inference/huggingface Tokenizer 库
- 线路2: 《网络是怎样连接的》
- 线路3 (torch.fx 优先): torch.fx + torchscript + torch.compile
- 线路4 (优先): torch 原生支持的量化 + QAT + AWQ
- 线路5: lmdeploy 的组装 batch 的一些细节
- 线路6: DDP 与 FSDP
- 线路7: 自动微分 + 陈天奇 dlsyscourse 课程
- 线路8: Tensor Parallel + Pipeline Parallel (lmdeploy 等框架)