大模型推理加速岗位学习路线

发表于2025-11-20|更新于2026-06-10|LLM

|浏览量:

大模型推理加速岗位学习路线

基础知识

Transformer/SelfAttention 原理（精读论文：Attention is all you need）
FlashAttention 原理（精读论文）
KVCache 原理
FasterTransformer/DeepSpeed/TensorRT-LLM 使用（推理加速）
CUDA/CANN 编程（算子开发）

vLLM

精读 PagedAttention 论文
阅读 vLLM 源码
Prefill/Decode 性能分析（PD 混合/分离）

参考资料

Basic LLM Inference/Generation

文章作者: xhj

文章链接: https://hzhzxfs.github.io/2025/11/20/%E5%A4%A7%E6%A8%A1%E5%9E%8B%E6%8E%A8%E7%90%86%E5%8A%A0%E9%80%9F%E5%B2%97%E4%BD%8D%E5%AD%A6%E4%B9%A0%E8%B7%AF%E7%BA%BF/

版权声明: 本博客所有文章除特别声明外，均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 xhj的博客！

相关推荐

vLLM 学习笔记｜Guided Decoding (V1)

vLLM 学习笔记｜Guided Decoding (V1)一、引言Guided Decoding，又叫 Structured Output，是大模型推理领域中非常重要的一个特性，主要用于引导大模型输出符合某种特定格式（如：SQL、Json）的结果，以便更好地将大模型落地到具体的应用场景中。在我的上一篇文章中，简要地介绍了 Guided Decoding 的原理，并详细分析了 vLLM 中相关代码的实现（V0），文章链接如下：link。自从 vLLM v0.8.x 之后，V1 Engine 将作为 vLLM 启动时的默认选项。关于 V1 Engine 的系统设计以及具体的优化点，我将会在之后逐步梳理并分享出来（如果有空的话）。而在本文中，我将针对 V1 Engine，分享 Structured Output 模块的整体设计与具体实现。二、V1 Engine 整体架构在介绍 Structured Output 模块的设计之前，让我们先来看下 vLLM V1 Engine 的整体架构。在 V1 中，vLLM 将不同类型的 CPU 密集型操作拆分到了两个相互独立的进程中，以便能够...

SO PRsPR1: platform 重构interface.py: 1234567class Platform: @classmethod def supports_structured_output(cls) -> bool: """ Returns whether the current platform can support structured output. """ return False cpu.py / cuda.py / hpu.py / neuron.py / rocm.py / xpu.py: return True tpu.py: 12345class TPUPlatform: @classmethod def supports_structured_output(cls) -> bool: logger.warning("Structured output is not s...

线性代数基本概念

线性代数基本概念特征值和特征向量值域空间零空间行空间与列空间正交补基标准正交基奇异值分解 Matrix Norm (矩阵范数) Frobenius Norm (弗罗贝尼乌斯范数) 奇异值分解在统计中的主要应用为主成分分析（PCA）。数据集的特征值（在 SVD 中用奇异值表征）按照重要性排列，降维的过程就是舍弃不重要的特征向量的过程，而剩下的特征向量张成空间为降维后的空间。

大模型基础知识

大模型基础知识Tokenizertoken：最小语义单元。多模态模型：图像等 -> token，再与文本的 token 进行拼接。 tokenizer：分词器。输入文本 -> token_id（input_id）。 input ids：token 的索引，是整数向量。 tokenizer.decode()：将 input_ids 转化为对应的 embedding 向量。模型文件解析： TransformerTransformer = Encoder + Decoder Encoder：适合理解型任务； Decoder：适合生成型任务。 Self-Attention： Mask-Attention： 1234567891011121314151617181920>>> import torch>>> seq_len = 4>>> qkt = torch.randn([seq_len, seq_len])>>> qkttensor([[ 0.0697, 0.7932, -0.1...

vLLM MEMO开发常用123456789101112131415161718192021222324# init envcd ~/github/vllm/source .venv/bin/activateexport VLLM_USE_MODELSCOPE=Falseexport HF_ENDPOINT="https://hf-mirror.com"# export VLLM_USE_MODELSCOPE=Truepre-commit install# def run_qwen2_5_vl# /home/sss/.cache/modelscope/hub/models/Qwen/Qwen2.5-VL-7B-Instructpython examples/offline_inference/vision_language.py -m qwen2_5_vl# def run_qwen3_vl# /home/sss/.cache/modelscope/hub/models/Qwen/Qwen3-VL-4B-Instruct# /home/sss/.cache/m...

如何快速上手一个开源项目

如何快速上手一个开源项目项目洞察社区治理运作方式（独裁、共建）；核心人物（commiter）；参与方； release 节奏（feature、bugfix 版本周期）；社区交流方式（PR/ISSUE、邮件列表、SLACK/IRC/微信）；当前/未来发展； …… 源码托管托管平台（GitHub、gitee、私仓）；贡献方式； License； CLA/CCLA； CI/CD CI 系统（GitHub action、Jenkins、circle CI、trivia CI）；架构（x86/arm、CPU/GPU、……）； CI job 内容（unit test、集成测试、端到端测试、……）。学习方法官方网站、文档、源码（重点）【非翻译版】；主流媒体（官方 blog、知乎专栏、知乎订阅号、领域 KOL）；搜索引擎（Google）；其它（教学视频、自行发现等）。注意：刚开始尽量看英文原版的文档（信息最完整、准确），有了整体的认识之后，可以再针对某些部分去看一些中文的网站...