大模型推理加速岗位学习路线

基础知识

  • Transformer/SelfAttention 原理(精读论文:Attention is all you need)
  • FlashAttention 原理(精读论文)
  • KVCache 原理
  • FasterTransformer/DeepSpeed/TensorRT-LLM 使用(推理加速)
  • CUDA/CANN 编程(算子开发)

vLLM

  • 精读 PagedAttention 论文
  • 阅读 vLLM 源码
  • Prefill/Decode 性能分析(PD 混合/分离)

参考资料