xhj的博客

发表于2025-10-12|LLM

大模型 LoRA 微调的数学原理一、概述LoRA（Low-Rank Adaptation，低秩适配器）是目前非常热门的大模型微调技术之一，网上已经有许多关于其原理的分析和讲解，本文将着重从 LoRA 背后的数学原理进行解读。二、背景介绍2.1 基本概念大模型微调（Fine-tuning）：基于已经训练好的预训练模型，针对特定的下游任务，在特定领域的数据集上进行二次训练，以提升模型在特定任务上的表现。全量微调：在下游任务的训练中，对预训练模型的每一个参数都做更新（训练代价昂贵）；局部微调：冻结（不更新）预训练模型的权重，只对部分增量权重进行训练，从而有效降低训练的代价（实用性更高）。 2.2 研究现状在 LoRA 微调技术出现之前，现有的大模型微调技术存在以下缺点： Adapter Tuning：在模型中添加额外的 Adapter 层，并只针对这些 Adapter 的权重进行训练。这将导致模型整体的层数变深，从而使模型的训练/推理耗时增加（因为新增的 Adapter 层与模型中的其它层是串行的，无法充分利用硬件能力进行并行计算）； Prefix Tuning：...

vLLM 算力多样性｜Platform 插件与 CustomOp

发表于2025-10-11|LLM

vLLM 算力多样性｜Platform 插件与 CustomOp一、引言随着 vLLM 逐渐成为生产级场景下大模型推理的通用解决方案之一，期望 vLLM 支持各式各样算力底座的需求日趋强烈。目前，在 vLLM 的官方仓库中维护着 NVIDIA GPU、AMD GPU 以及 Google TPU 等多家芯片厂商的代码，但除此之外，还有更多的 AI 芯片是通过“硬件插件化机制”来支持自家算力的。所有不在 vLLM 官方仓库中支持的硬件，都被统称为 OOT（Out Of Tree）Device，包括：官方插件（指存在于 vllm-project 官方项目下的插件）：vllm-ascend（华为昇腾 NPU）、vllm-spyre、vllm-gaudi（Intel Gaudi）、vllm-neuron（AWS Neuron）、vllm-metal（Apple Silicon）等；非官方插件：vLLM-metax（沐曦 GPU）、vLLM-Kunlun（百度昆仑芯 XPU）等。本文将深入介绍 vLLM 硬件插件化系统的原理，以及如何通过 CustomOp 完成自定义算子的注册与...

vLLM 学习笔记｜Guided Decoding

发表于2025-10-10|LLM

vLLM 学习笔记｜Guided Decoding一、引言目前，在大模型推理领域中，Guided Decoding 技术广泛用于生成一些特定格式的输出，如：SQL、JSON 等。本文将基于 vLLM 以及 Outlines 后端，深入解析 Guided Decoding 背后的技术原理。二、什么是 Guided Decoding？一般来说，LLM 的输出通常是一段符合人类表达习惯的文本序列，这让我们可以利用 LLM 来回答问题或是创作内容。然而，当我们需要 LLM 的输出符合特定的格式（如：JSON、SQL、正则表达式等）时——例如希望 LLM 根据我们的需求生成查询数据库的 SQL 语句，通过微调的方法通常很难达到我们预期的效果。这时，就需要用到 Guided Decoding 技术，它可以通过影响模型输出层的 Logits 分布（施加 Mask 过滤不满足要求的 Token）来达到规范模型输出格式的效果。 🌰 举个例子：我们可以向 LLM 输入一个 Prompt 以及对应的格式数据： 12345678910111213141516171819# Guided decod...

vLLM 学习笔记｜Guided Decoding (V1)

发表于2025-10-09|LLM

vLLM 学习笔记｜Guided Decoding (V1)一、引言Guided Decoding，又叫 Structured Output，是大模型推理领域中非常重要的一个特性，主要用于引导大模型输出符合某种特定格式（如：SQL、Json）的结果，以便更好地将大模型落地到具体的应用场景中。在我的上一篇文章中，简要地介绍了 Guided Decoding 的原理，并详细分析了 vLLM 中相关代码的实现（V0），文章链接如下：link。自从 vLLM v0.8.x 之后，V1 Engine 将作为 vLLM 启动时的默认选项。关于 V1 Engine 的系统设计以及具体的优化点，我将会在之后逐步梳理并分享出来（如果有空的话）。而在本文中，我将针对 V1 Engine，分享 Structured Output 模块的整体设计与具体实现。二、V1 Engine 整体架构在介绍 Structured Output 模块的设计之前，让我们先来看下 vLLM V1 Engine 的整体架构。在 V1 中，vLLM 将不同类型的 CPU 密集型操作拆分到了两个相互独立的进程中，以便能够...

vLLM 多模态推理｜卷积计算加速

发表于2025-10-08|LLM

vLLM 多模态推理｜卷积计算加速一、引言卷积运算是 VL 等多模态模型在处理图像、视频等数据时的核心步骤之一，使用 img2col 算法可以将输入数据和卷积核展平为两个大的矩阵，并通过一次高效的矩阵乘法得到卷积结果，从而极大地提升计算的效率。本文将详细讲解 img2col 算法的基本原理和代码实现，并对 vLLM 中的卷积算子进行介绍。二、卷积的基本原理在讲解 img2col 算法之前，我们先简单介绍下什么是卷积运算（Convolution）。简单来说，卷积运算就是一个小窗口（一般称为“卷积核”或“滤波器”）在一个大的输入数据（如图片）上滑动，并在每个位置计算点积，最终生成一个新的、更精炼的特征图的过程。其中，卷积核一般使用正方形，比如在下图中，使用的就是一个 3 x 3 的卷积核（卷积核的通道数 = 输入的通道数，一般为 3，代表图像的红、绿、蓝三种颜色）。卷积的计算过程：属于同一输入通道的卷积核在对应的图像数据上进行滑动，并在每一个位置处计算这 9 个数据的点积和；将每个输入通道的计算结果在每个位置上进行相加，得到形状为 (1, 3, 3) 的输出；...

vLLM 多模态推理｜ViT 性能优化

发表于2025-10-07|LLM

vLLM 多模态推理｜ViT 性能优化一、引言在多模态处理的 Pipeline 中，ViT（Vision Transformer）和 DiT（Diffusion Transformer）是最常见的处理模块。其中，ViT 在多模态模型中的角色类似于自然语言建模中的 Tokenizer 组件，负责对图像进行视觉特征编码，产出图像的特征序列，只不过 ViT 的编码过程本身也采用了 Transformer 模型结构。目前，以 vLLM 和 SGLang 为首的开源推理框架针对纯语言模型的特性和优化已愈发完善，而随着多模态模型的快速发展，涌现出了诸如 VL、Omni、TTS 以及 Diffusion 等各式各样的多模态模型，这些开源推理框架针对多模态理解和生成的推理技术还有待完善。本文将以 vLLM 为例，分享我在工作中学习并积累到的一些针对 ViT 模块的性能优化手段。二、多模态推理概述2.1 多模态模型的分类目前，根据模型输入和输出所支持的模态，多模态模型可以分为：多模态理解模型：输入为“文本/图像/视频/音频”，输出为“文本”，模型的任务是理解...

vLLM V1 整体流程｜从请求到算子执行

发表于2025-10-06|LLM

vLLM V1 整体流程｜从请求到算子执行一、引言vLLM V1 是 vLLM 团队基于 V0 的实践经验并参考工业界其它相关工作提出的最新架构，从 vLLM 0.8.x 版本开始，V1 Engine 将作为 vLLM 启动时的默认选项。相比于 V0，vLLM V1 具有以下优势：可读性：代码更加简洁易懂、更加模块化；高性能：提供更好的推理性能，使用双进程异步处理不同的 CPU 操作，极大地降低了推理的时延和开销；易扩展：可以轻松集成多样化的特性；易用性：简化了配置，会默认开启一些特性，以提供更好的性能和体验。下面，本文将揭秘 vLLM V1 从接收请求到算子执行的推理全流程（附超长流程图，画图不易，欢迎点赞 & 收藏~）。二、整体概览在深入具体细节之前，让我们先从整体上认识下 V1 Engine 的推理流程。下面是 vLLM 官方博客中提供的 V1 Engine 在线推理架构图。在 V1 中，vLLM 将不同类型的 CPU 密集型操作拆分到了两个相互独立的进程中，以便能够异步执行不同的 CPU 操作，减少了不同步骤之间相互等待的时间，因此能够更好地压...

vLLM MEMO

发表于2025-10-05|LLM

vLLM MEMO开发常用123456789101112131415161718192021222324# init envcd ~/github/vllm/source .venv/bin/activateexport VLLM_USE_MODELSCOPE=Falseexport HF_ENDPOINT="https://hf-mirror.com"# export VLLM_USE_MODELSCOPE=Truepre-commit install# def run_qwen2_5_vl# /home/sss/.cache/modelscope/hub/models/Qwen/Qwen2.5-VL-7B-Instructpython examples/offline_inference/vision_language.py -m qwen2_5_vl# def run_qwen3_vl# /home/sss/.cache/modelscope/hub/models/Qwen/Qwen3-VL-4B-Instruct# /home/sss/.cache/m...

NVIDIA GPU 硬件架构入门

发表于2025-10-04|LLM

NVIDIA GPU 硬件架构入门一、概述随着大模型产业的发展，AI 训练 & 推理对算力的需求越来越大，AI 的计算也越来越离不开 GPU 的支持。目前，用于 AI 计算的芯片可以分为： CPU（通用处理器）； GPU（通用图形处理器）； NPU / TPU（AI 专用处理器）。那么 CPU 和 GPU 有什么区别呢？从硬件设计上来看，GPU 的 DRAM 时延（数据搬运、指令执行的延迟）远高于 CPU，但 GPU 的线程数远高于 CPU（有非常多的线程，为大量大规模任务并行而去设计的）。关注重点： CPU：降低延迟、并发（Concurrency，能够处理多个任务的功能，但不一定是同时）； GPU：最大化吞吐量、并行度（Parallelism，同时可以执行多少任务）。总结： CPU：希望在一个线程里完成所有的工作（串行，优化线程的执行速率和效率）； GPU：利用多线程对循环进行展开，来提高硬件整体的利用率（并行，用足够多的线程去解决延迟的问题）。参考资料：AI System (chenzomi12.github.io)。二、GPU...

MEMO

发表于2025-10-03|LLM

MEMO环境搭建 Preparation Dockerfile Init env script Linux123456789101112131415161718192021222324252627282930313233343536373839404142434445# 安装 sudoapt-get updateapt-get install sudo# 安装 curlsudo apt updatesudo apt upgradesudo apt install curl# 将自己的 SSH 公钥配置到远程服务器上ssh user@IP -p port# 将 id_rsa.pub 公钥放在服务器上的 authorized_keys 文件中vim /root/.ssh/authorized_keys# 安装 SSH 服务sudo apt updatesudo apt install openssh-client -y# 将 SSH 公钥配置到 GitHub 上ssh-keygen -t ed25519 -C "467638484@qq.com"eval &qu...