Qwen2.5-VL

发表于2025-08-04|更新于2026-06-10|LLM

|浏览量:

Qwen2.5-VL

1 2	Layer: - Qwen 方法 = vLLM 算子

Layers

Qwen2_5_VisionTransformer:

patch_embed = Qwen2_5_VisionPatchEmbed
rotary_pos_emb = Qwen2_5_VisionRotaryEmbedding
blocks = Qwen2_5_VisionBlock * layer_num
merger = Qwen2_5_VisionPatchMerger

Qwen2_5_VisionPatchEmbed:

proj = nn.Conv3d

Qwen2_5_VisionRotaryEmbedding:

Qwen2_5_VisionBlock:

norm1 = RMSNorm
attn = Qwen2_5_VisionAttention
norm2 = RMSNorm
mlp = Qwen2_5_VisionMLP

Qwen2_5_VisionAttention:

qkv = ColumnParallelLinear
rotary_emb
- apply_rotary_emb_torch
- from flash_attn.layers.rotary import apply_rotary_emb
attention
- FLASH_ATTN: flash_attn_varlen_func
- TORCH_SDPA: scaled_dot_product_attention
- XFORMERS: memory_efficient_attention_forward
proj = RowParallelLinear

Qwen2_5_VisionMLP:

gate_proj = ColumnParallelLinear
act_fn = F.silu
up_proj = ColumnParallelLinear
down_proj = RowParallelLinear

Qwen2_5_VisionPatchMerger:

ln_q = RMSNorm
mlp = nn.ModuleList([ColumnParallelLinear, nn.GELU(), RowParallelLinear])

Forward pipeline

x ->

patchify: Qwen2_5_VisionPatchEmbed
compute position embedding: Qwen2_5_VisionRotaryEmbedding
windows attention
compute cu_seqlens
transformers: Qwen2_5_VisionBlock * layer_num
adapter: Qwen2_5_VisionPatchMerger

文章作者: xhj

文章链接: https://hzhzxfs.github.io/2025/08/04/Qwen2.5-VL/

版权声明: 本博客所有文章除特别声明外，均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 xhj的博客！

相关推荐

AI训练&推理常用依赖库

AI 训练 & 推理常用依赖库PyTorchtorch…… torchaudiotorchaudio 是 PyTorch 官方用于处理音频数据和进行音频相关深度学习任务的工具包，提供了音频数据的加载和保存、频谱分析、预训练的音频模型（支持音频分类、语音识别等任务）、与 PyTorch 的数据集和数据加载器集成等功能。 torchaudio.load() 是 torchaudio 库中的一个函数，用于加载音频文件并返回音频数据及其采样率。它可以方便地将音频文件加载到 PyTorch 的张量中，以便进行后续的音频处理和深度学习任务。具体功能包括：读取音频文件：支持多种音频格式（如 WAV、MP3 等）；返回数据和采样率：返回两个值：音频信号的张量表示（通常是浮点数）和音频的采样率（Hz），方便后续处理和分析。 torchaudio.functional.resample(y, orig_freq=xxx, new_freq=xxx) 是用于对音频信号进行重采样的函数。该函数适用于需要调整音频采样率的场景，如匹配不同音频源的采样频率或准备音频数据以供模型训练。具体功...

vLLM 多模态推理｜ViT 性能优化

vLLM 多模态推理｜ViT 性能优化一、引言在多模态处理的 Pipeline 中，ViT（Vision Transformer）和 DiT（Diffusion Transformer）是最常见的处理模块。其中，ViT 在多模态模型中的角色类似于自然语言建模中的 Tokenizer 组件，负责对图像进行视觉特征编码，产出图像的特征序列，只不过 ViT 的编码过程本身也采用了 Transformer 模型结构。目前，以 vLLM 和 SGLang 为首的开源推理框架针对纯语言模型的特性和优化已愈发完善，而随着多模态模型的快速发展，涌现出了诸如 VL、Omni、TTS 以及 Diffusion 等各式各样的多模态模型，这些开源推理框架针对多模态理解和生成的推理技术还有待完善。本文将以 vLLM 为例，分享我在工作中学习并积累到的一些针对 ViT 模块的性能优化手段。二、多模态推理概述2.1 多模态模型的分类目前，根据模型输入和输出所支持的模态，多模态模型可以分为：多模态理解模型：输入为“文本/图像/视频/音频”，输出为“文本”，模型的任务是理解...

推理显存计算

推理显存计算推理所需显存 = 模型参数部分 + 激活参数部分 + KVCache 部分模型参数部分 = 模型参数量 × 精度系数激活参数部分 = 激活参数量 × 精度系数 KVCache 部分 = 并发数 ×（输入 Token 数 + 输出 Token 数）× 2（K 和 V）× 层数 × hidden_size × 精度系数参考资料：模型显存计算逻辑

vLLM 算力多样性｜Platform 插件与 CustomOp

vLLM 算力多样性｜Platform 插件与 CustomOp一、引言随着 vLLM 逐渐成为生产级场景下大模型推理的通用解决方案之一，期望 vLLM 支持各式各样算力底座的需求日趋强烈。目前，在 vLLM 的官方仓库中维护着 NVIDIA GPU、AMD GPU 以及 Google TPU 等多家芯片厂商的代码，但除此之外，还有更多的 AI 芯片是通过“硬件插件化机制”来支持自家算力的。所有不在 vLLM 官方仓库中支持的硬件，都被统称为 OOT（Out Of Tree）Device，包括：官方插件（指存在于 vllm-project 官方项目下的插件）：vllm-ascend（华为昇腾 NPU）、vllm-spyre、vllm-gaudi（Intel Gaudi）、vllm-neuron（AWS Neuron）、vllm-metal（Apple Silicon）等；非官方插件：vLLM-metax（沐曦 GPU）、vLLM-Kunlun（百度昆仑芯 XPU）等。本文将深入介绍 vLLM 硬件插件化系统的原理，以及如何通过 CustomOp 完成自定义算子的注册与...

多卡推理中CUDA-Graph协同计算解析

这是一个非常好的问题，它触及了现代大模型推理优化的核心。我们来详细拆解一下 torch.compile() 生成的 CUDA Graph 是如何在分布式多卡环境下协同工作的。首先，要明确一个关键点：torch.compile 和 CUDA Graph 是两种不同但可以协同工作的优化技术。 torch.compile：它是一个编译器。它捕获你的 PyTorch 模型（一个动态图），将其编译成一个优化的、静态的计算图。这个优化后的图可以由不同的后端执行，其中最强大的后端就是 inductor。 CUDA Graph：它是一种执行模式。它通过捕获在 GPU 上执行的一系列内核（kernel）来创建一个“图”，然后可以多次、高效地重放这个图，避免了 CPU 驱动开销、启动内核的开销等。在 torch.compile 的 inductor 后端中，一个非常重要的优化就是自动生成并利用 CUDA Graph 来执行编译好的计算图。现在，我们来看多卡（分布式）推理的场景。这里通常使用 Tensor Parallelism（张量并行）或 Pipeline Parallelism（...

一、引言目前，在大模型推理领域中，Guided Decoding 技术广泛用于生成一些特定格式的输出，如：SQL、JSON 等。本文将基于 vLLM 以及 Outlines 后端，深入解析 Guided Decoding 背后的技术原理。二、什么是 Guided Decoding？一般来说，LLM 的输出通常是一段符合人类表达习惯的文本序列，这让我们可以利用 LLM 来回答问题或是创作内容。然而，当我们需要 LLM 的输出符合特定的格式（如：JSON、SQL、正则表达式等）时——例如希望 LLM 根据我们的需求生成查询数据库的 SQL 语句，通过微调的方法通常很难达到我们预期的效果。这时，就需要用到 Guided Decoding 技术，它可以通过影响模型输出层的 Logits 分布（施加 Mask 过滤不满足要求的 Token）来达到规范模型输出格式的效果。 🌰 举个例子：我们可以向 LLM 输入一个 Prompt 以及对应的格式数据： 12345678910111213141516171819# Guided decoding by JSON using Pydanti...