qwen3_vl_image_vs_video_inference

发表于2025-08-12|更新于2026-06-10|LLM

|浏览量:

Qwen3-VL：图像推理与视频推理的区别

1. 输入预处理

图像

输入为静态图片，经过 image_processor 处理
使用 Conv3dLayer（temporal_patch_size=2）对图片做 patch 嵌入，但 t=1（单帧）
输出 pixel_values（shape: [num_patches, flattened_patch_size]）
grid 信息保存在 image_grid_thw，每条记录为 [1, H, W]

视频

输入为视频帧序列，经过 video_processor 处理
先均匀采样若干帧（如 16 帧），再按 temporal_patch_size=2 分组打包成时序 patch
输出 pixel_values_videos（shape: [num_patches, flattened_patch_size]）
grid 信息保存在 video_grid_thw，每条记录为 [T, H, W]，T≥1 表示时序维度

2. 输入格式差异

维度	图像	视频
pixel values key	`pixel_values`	`pixel_values_videos`
grid key	`image_grid_thw`	`video_grid_thw`
t 值	固定为 1	≥1（取决于帧数/temporal_patch_size）
时序分组	无	每 `temporal_patch_size=2` 帧合并为 1 个时序 patch
cu_seqlens 大小	= 图片数	= 所有视频的 sum(t)（总时序帧数）

3. ViT Encoder 差异

图像

Qwen3_VisionTransformer 接收 [num_patches, flat] 的 pixel_values
cu_seqlens 按图片边界划分，长度 = 图片数
每个 Transformer block 中的 attention 是 图片内 局部计算
spatial merge：spatial_merge_size=2，输出 tokens = sum(T*(H//m)*(W//m))，T=1

视频

同样使用 Qwen3_VisionTransformer，但输入为多帧 patch
cu_seqlens 按时序帧边界划分，长度 = sum(t for each video)
每个视频的所有时序帧在 ViT 内一起做 attention（3D 时序建模）
spatial merge 后输出 tokens = sum(T*(H//m)*(W//m))，T>1

4. MRoPE（多模态旋转位置编码）差异

图像：位置编码维度为 [t=1, h, w]，t 维度贡献极少
视频：位置编码维度为 [t, h, w]，t 维度携带时序信息
视频的 MRoPE 中，时序位置（帧索引）对模型理解时间顺序至关重要
LLM 侧的 mrope_section 将 t/h/w 三个维度的 rope 分配到 head dim 的不同区间

5. Prompt Token 结构差异

图像：
<|vision_start|> [image tokens] <|vision_end|>

视频：
<|vision_start|> [video tokens (多帧合并)] <|vision_end|>

图像 token 数 = 1*(H//m)*(W//m)（单帧）
视频 token 数 = T*(H//m)*(W//m)（所有时序帧的 spatial tokens 拼接）
视频 token 数通常远多于图像，显存和计算开销更高

6. EVS（高效视觉采样）差异

EVS 仅用于视频推理，不适用于图像
视频帧较多时，相邻帧内容高度相似，EVS 对冗余帧进行剪枝
剪枝后的视频 token 数减少，降低 LLM 侧的 prefill 计算量
图像没有时序冗余，无需剪枝

7. 总结对比

维度	图像	视频
时序建模	无（t=1）	有（t ≥ 1，帧间关系建模）
cu_seqlens 大小	= 图片数	= 总时序帧数（更大）
MRoPE 时序维度	基本不携带信息	携带帧索引时序信息
EVS 剪枝	不支持	支持（减少冗余视频 token）
ViT 计算量	低（t=1）	高（t>1，随帧数线性增长）
LLM 侧 token 数	少	多（随 T 增大）
pixel values key	`pixel_values`	`pixel_values_videos`
grid thw key	`image_grid_thw`	`video_grid_thw`

文章作者: xhj

文章链接: https://hzhzxfs.github.io/2025/08/12/qwen3_vl_image_vs_video_inference/

版权声明: 本博客所有文章除特别声明外，均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 xhj的博客！

相关推荐

多卡推理中CUDA-Graph协同计算解析

这是一个非常好的问题，它触及了现代大模型推理优化的核心。我们来详细拆解一下 torch.compile() 生成的 CUDA Graph 是如何在分布式多卡环境下协同工作的。首先，要明确一个关键点：torch.compile 和 CUDA Graph 是两种不同但可以协同工作的优化技术。 torch.compile：它是一个编译器。它捕获你的 PyTorch 模型（一个动态图），将其编译成一个优化的、静态的计算图。这个优化后的图可以由不同的后端执行，其中最强大的后端就是 inductor。 CUDA Graph：它是一种执行模式。它通过捕获在 GPU 上执行的一系列内核（kernel）来创建一个“图”，然后可以多次、高效地重放这个图，避免了 CPU 驱动开销、启动内核的开销等。在 torch.compile 的 inductor 后端中，一个非常重要的优化就是自动生成并利用 CUDA Graph 来执行编译好的计算图。现在，我们来看多卡（分布式）推理的场景。这里通常使用 Tensor Parallelism（张量并行）或 Pipeline Parallelism（...

Ascend NPU 硬件架构入门

Ascend NPU 硬件架构入门一、概述昇腾 NPU 是专门用于 AI 训练/推理计算的 AI 专用处理器，其中的 AI Core 能够在很大程度上提高 AI 计算的效率。本文将主要介绍 ASCEND NPU 的硬件架构 & 工作原理、AI Core 的计算模式以及异构计算平台 CANN 等内容。二、NPU 硬件架构2.1 NPU SOC 架构2.1.1 Ascend 310 架构 AI Core：计算核心，负责执行矩阵、向量、标量计算密集的算子任务，采用达芬奇架构； AI CPU：承担非矩阵类复杂计算，即负责执行不适合跑在 AI Core 上的算子； TS Core：作为任务调度器（Task Scheduler，TS），以实现计算任务在 AI Core 上的高效分配和调度（专门服务于 AI Core 和 AI CPU，不承担任何其它的工作）； ARM CPU：控制芯片整体运行； DVPP：数字视觉预处理子系统，完成图像视频编解码； Cache & Buffer。 2.1.2 Ascend 910 架构 AI Core：32 个，上下各 16 ...

Qwen3-Omni没有vllm_config属性

1234class Qwen3OmniMoeThinkerForConditionalGeneration: def __init__(...): self.vllm_config = vllm_config

vLLM 算力多样性｜Platform 插件与 CustomOp

vLLM 算力多样性｜Platform 插件与 CustomOp一、引言随着 vLLM 逐渐成为生产级场景下大模型推理的通用解决方案之一，期望 vLLM 支持各式各样算力底座的需求日趋强烈。目前，在 vLLM 的官方仓库中维护着 NVIDIA GPU、AMD GPU 以及 Google TPU 等多家芯片厂商的代码，但除此之外，还有更多的 AI 芯片是通过“硬件插件化机制”来支持自家算力的。所有不在 vLLM 官方仓库中支持的硬件，都被统称为 OOT（Out Of Tree）Device，包括：官方插件（指存在于 vllm-project 官方项目下的插件）：vllm-ascend（华为昇腾 NPU）、vllm-spyre、vllm-gaudi（Intel Gaudi）、vllm-neuron（AWS Neuron）、vllm-metal（Apple Silicon）等；非官方插件：vLLM-metax（沐曦 GPU）、vLLM-Kunlun（百度昆仑芯 XPU）等。本文将深入介绍 vLLM 硬件插件化系统的原理，以及如何通过 CustomOp 完成自定义算子的注册与...

一、引言在多模态处理的 Pipeline 中，ViT（Vision Transformer）和 DiT（Diffusion Transformer）是最常见的处理模块。其中，ViT 在多模态模型中的角色类似于自然语言建模中的 Tokenizer 组件，负责对图像进行视觉特征编码，产出图像的特征序列，只不过 ViT 的编码过程本身也采用了 Transformer 模型结构。目前，以 vLLM 和 SGLang 为首的开源推理框架针对纯语言模型的特性和优化已愈发完善，而随着多模态模型的快速发展，涌现出了诸如 VL、Omni、TTS 以及 Diffusion 等各式各样的多模态模型，这些开源推理框架针对多模态理解和生成的推理技术还有待完善。本文将以 vLLM 为例，分享我在工作中学习并积累到的一些针对 ViT 模块的性能优化手段。二、多模态推理概述2.1 多模态模型的分类目前，根据模型输入和输出所支持的模态，多模态模型可以分为：多模态理解模型：输入为“文本/图像/视频/音频”，输出为“文本”，模型的任务是理解而不是创造图像或视频。一般由 ViT ...

RDMA基本原理RDMA 本质：“zero-copy + 远程内存访问”。 zero-copy？指数据从源头到目的地，中间不经过 CPU 内存的“中转拷贝”。传统路径：GPU A -copy-> CPU 内存 -socket send-> 内核 buffer -网络-> 对端内核 buffer -> CPU 内存 -copy-> GPU B； zero-copy：GPU A memory -> GPU B memory，数据不经过 CPU 内存，CPU 只负责“发指令”，数据由 DMA / RDMA NIC / GPU copy engine 直接搬运。 zero-copy 并不是“完全没有 copy”，而是：copy 仍然发生，但不经过 CPU 和额外 buffer。 DMA（Direct Memory Access）：Device 直接读写内存，不经过 CPU（CPU 不参与数据搬运）； RDMA（Remote Direct Memory Access）：机器 A 内存 -> 机器 B 内存，绕过 CP...