Qwen2-VL

发表于2025-08-01|更新于2026-06-10|LLM

|浏览量:

Qwen2-VL

Layers

Qwen2VisionMLP:

fc1 = ColumnParallelLinear
act = QuickGELU
fc2 = RowParallelLinear

Qwen2VisionAttention:

qkv = ColumnParallelLinear
proj = RowParallelLinear
rotary_pos_emb
attention 3 types

Qwen2VisionBlock:

norm1 = norm_layer
norm2 = norm_layer
attn = Qwen2VisionAttention
mlp = Qwen2VisionMLP

Qwen2VisionPatchEmbed:

proj = nn.Conv3d

Qwen2VisionPatchMerger:

ln_q = norm_layer
mlp = ColumnParallelLinear, nn.GELU(), RowParallelLinear

Qwen2VisionRotaryEmbedding:

Qwen2VisionTransformer:

patch_embed = Qwen2VisionPatchEmbed
rotary_pos_emb = Qwen2VisionRotaryEmbedding
blocks = Qwen2VisionBlock * n
merger = Qwen2VisionPatchMerger

Different from Qwen2.5-VL:

norm_layer = partial(nn.LayerNorm, eps=norm_eps)

文章作者: xhj

文章链接: https://hzhzxfs.github.io/2025/08/01/Qwen2-VL/

版权声明: 本博客所有文章除特别声明外，均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 xhj的博客！

相关推荐

Qwen2.5-VL_RoPE计算流程详解

Qwen2.5-VisionTransformer 中 RoPE cos/sin 的计算流程整个流程从 forward(x, grid_thw) 开始，分为以下几个阶段：第一步：初始化时预计算 cos/sin 缓存qwen2_5_vl.py:608-612 123456self.rotary_pos_emb = get_rope( head_size=head_dim, max_position=8192, is_neox_style=True, rope_parameters={"partial_rotary_factor": 0.5},) get_rope 最终创建一个 RotaryEmbedding 对象，关键参数： rotary_dim = head_dim * 0.5 → 只使用一半的 head 维度做旋转在 _compute_cos_sin_cache 中(base.py:83-92)： 12345# inv_freq 形状: [rotary_dim // 2]inv_fr...

vLLM 算力多样性｜Platform 插件与 CustomOp

vLLM 算力多样性｜Platform 插件与 CustomOp一、引言随着 vLLM 逐渐成为生产级场景下大模型推理的通用解决方案之一，期望 vLLM 支持各式各样算力底座的需求日趋强烈。目前，在 vLLM 的官方仓库中维护着 NVIDIA GPU、AMD GPU 以及 Google TPU 等多家芯片厂商的代码，但除此之外，还有更多的 AI 芯片是通过“硬件插件化机制”来支持自家算力的。所有不在 vLLM 官方仓库中支持的硬件，都被统称为 OOT（Out Of Tree）Device，包括：官方插件（指存在于 vllm-project 官方项目下的插件）：vllm-ascend（华为昇腾 NPU）、vllm-spyre、vllm-gaudi（Intel Gaudi）、vllm-neuron（AWS Neuron）、vllm-metal（Apple Silicon）等；非官方插件：vLLM-metax（沐曦 GPU）、vLLM-Kunlun（百度昆仑芯 XPU）等。本文将深入介绍 vLLM 硬件插件化系统的原理，以及如何通过 CustomOp 完成自定义算子的注册与...

Profiling 分析指南

Profiling 分析指南Ascend NPU + MindStudio Insight关键文件： trace_view.jsonkernel_details.csvop_stastic.csv kernel_details.csv 分析指南：冻结首行，start time 排序，只看一个 layer 的数据。数量比较多的 stream id 就是“主流”，其它的是通信流、共享专家流（实现计算通信并行）。静态/动态算子。Duration（优化目标）：尽量让算子达到计算 bound，减少访存 bound -> 判断优化方向。判断性能瓶颈：每个算子的时间除以整个 layer 的时间，再转换为百分比的形式 -> 判断优化重点。 trace_view.json 分析指南：一般不用关注 CANN 这一层。算子的实际执行时间主要看 Ascend Hardware 这一层。AI Core Freq：当芯片温度比较高时，可能会出现降频，导致计算性能下降。 CV 并行：cube 和 vector 是相互独立的计算单元，可以放到两条流上并行计算（但是会争访存带宽）。 bu...

LLM 学习项目

LLM 学习项目KuiperLLama 采用最新的 C++ 20 标准去写代码，统一、美观的代码风格，良好的错误处理；优秀的项目管理形式，我们采用 CMake + Git 的方式管理项目，接轨大厂；授人以渔，教大家怎么设计一个现代 C++ 项目，同时教大家怎么用单元测试和 Benchmark 去测试验证自己的项目； CPU 算子和 CUDA 双后端实现，对时新的大模型（LLama3 和 Qwen 系列）有非常好的支持。项目地址：https://github.com/zjhellofss/KuiperLLama。 lightllm推荐用 lightllm 这个项目学习 Triton for LLM，它是一个纯 python 的 LLM 推理服务框架，用 Triton 实现了各类 LLM 需要的 layer。项目地址：https://github.com/ModelTC/lightllm。 Material for gpu-mode lectures如何系统地学习CUDA？这个课程算是比较全面的，像 profile、triton、cutlass、FlashAttention...

qwen3_vl_video_cudagraph_implementation

Qwen3-VL 视频模态 Full CUDA Graph 支持实现基于 PR #35963（已合入 main），在其图像 CUDA Graph 支持的基础上，扩展实现视频模态的 Full CUDA Graph 支持。修改文件总览文件改动类型说明 vllm/v1/worker/gpu/mm/encoder_cudagraph_defs.py 数据结构扩展新增多模态配置字段和状态字段 vllm/v1/worker/gpu/mm/encoder_cudagraph.py 核心逻辑扩展 per-modality budget 管理、自动模态检测、时序帧约束检查 vllm/model_executor/models/interfaces.py 协议扩展新增 get_encoder_cudagraph_num_seqs 方法 vllm/model_executor/models/qwen3_vl.py 模型实现为所有协议方法添加视频支持 tests/v1/cudagraph/test_encoder_cudagraph.py 测试更新适配新的多模...

大模型基础知识

大模型基础知识Tokenizertoken：最小语义单元。多模态模型：图像等 -> token，再与文本的 token 进行拼接。 tokenizer：分词器。输入文本 -> token_id（input_id）。 input ids：token 的索引，是整数向量。 tokenizer.decode()：将 input_ids 转化为对应的 embedding 向量。模型文件解析： TransformerTransformer = Encoder + Decoder Encoder：适合理解型任务； Decoder：适合生成型任务。 Self-Attention： Mask-Attention： 1234567891011121314151617181920>>> import torch>>> seq_len = 4>>> qkt = torch.randn([seq_len, seq_len])>>> qkttensor([[ 0.0697, 0.7932, -0.1...