Qwen3-Omni没有vllm_config属性
发表于|更新于|LLM
|浏览量:
1 | class Qwen3OmniMoeThinkerForConditionalGeneration: |
文章作者: xhj
文章链接: https://hzhzxfs.github.io/2025/08/07/Qwen3-Omni%E6%B2%A1%E6%9C%89vllm_config%E5%B1%9E%E6%80%A7/
版权声明: 本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 xhj的博客!
相关推荐
2025-12-13
昇腾empty_cache原理
这是个非常好的观察,而且你没有看错 👍在 vLLM-Ascend(NPU) 上,torch.npu.empty_cache() 确实可能导致 non-torch 显存下降,这和 CUDA 的行为本质不同。 下面我分「结论 → 原因 → 机制细节 → vLLM 场景」把这件事讲清楚。 一句话结论(先给你) 在 Ascend / torch-npu 上:torch.npu.empty_cache() 不仅仅是 PyTorch cache 操作,它会间接触发 Ascend Runtime / ACL 的内存回收路径,从而 释放部分 non-torch(runtime / kernel / workspace)显存。 这在 CUDA 上几乎不会发生,但在 Ascend 上是“设计如此”。 1️⃣ 为什么 CUDA 上不行,Ascend 上却行?CUDA(torch.cuda.empty_cache) 只操作 PyTorch CUDACachingAllocator 不会触发: CUDA Runtime 内部 pool cuBLAS ...
2025-11-10
vLLM2.md
一、引言vLLM V1 是 vLLM 团队基于 V0 的实践经验并参考工业界其它相关工作提出的最新架构,从 vLLM 0.8.x 版本开始,V1 Engine 将作为 vLLM 启动时的默认选项。 相比于 V0,vLLM V1 具有以下优势: 可读性:代码更加简洁易懂、更加模块化; 高性能:提供更好的推理性能,使用双进程异步处理不同的 CPU 操作,极大地降低了推理的时延和开销; 易扩展:可以轻松集成多样化的特性; 易用性:简化了配置,会默认开启一些特性,以提供更好的性能和体验。 下面,本文将揭秘 vLLM V1 从接收请求到算子执行的推理全流程(附超长流程图,画图不易,欢迎点赞 & 收藏~)。 二、整体概览在深入具体细节之前,让我们先从整体上认识下 V1 Engine 的推理流程。 下面是 vLLM 官方博客中提供的 V1 Engine 在线推理架构图。在 V1 中,vLLM 将不同类型的 CPU 密集型操作拆分到了两个相互独立的进程中,以便能够异步执行不同的 CPU 操作,减少了不同步骤之间相互等待的时间,因此能够更好地压榨硬件的计算性能。 Process 0...
2025-12-12
推理显存计算
推理显存计算推理所需显存 = 模型参数部分 + 激活参数部分 + KVCache 部分 模型参数部分 = 模型参数量 × 精度系数 激活参数部分 = 激活参数量 × 精度系数 KVCache 部分 = 并发数 ×(输入 Token 数 + 输出 Token 数)× 2(K 和 V)× 层数 × hidden_size × 精度系数 参考资料:模型显存计算逻辑
2025-08-09
Qwen3-VL-8B推理结果为空
123456789101112131415161718192021222324252627python -m vllm.entrypoints.openai.api_server \--model /root/.cache/modelscope/hub/models/Qwen/Qwen3-VL-8B-Instruct \--dtype bfloat16 \--gpu-memory-utilization 0.9 \--max-model-len 8192 \--max_num_batched_tokens 8192--host 0.0.0.0 \--port 8000 \--compilation-config '{"cudagraph_capture_sizes": [1, 2, 4, 8, 16, 32, 64, 128, 256, 512]}'curl -X POST http://localhost:8000/v1/chat/completions \ -H "Content-Type: app...
2025-10-08
vLLM 多模态推理|卷积计算加速
vLLM 多模态推理|卷积计算加速一、引言卷积运算是 VL 等多模态模型在处理图像、视频等数据时的核心步骤之一,使用 img2col 算法可以将输入数据和卷积核展平为两个大的矩阵,并通过一次高效的矩阵乘法得到卷积结果,从而极大地提升计算的效率。本文将详细讲解 img2col 算法的基本原理和代码实现,并对 vLLM 中的卷积算子进行介绍。 二、卷积的基本原理在讲解 img2col 算法之前,我们先简单介绍下什么是卷积运算(Convolution)。 简单来说,卷积运算就是一个小窗口(一般称为“卷积核”或“滤波器”)在一个大的输入数据(如图片)上滑动,并在每个位置计算点积,最终生成一个新的、更精炼的特征图的过程。其中,卷积核一般使用正方形,比如在下图中,使用的就是一个 3 x 3 的卷积核(卷积核的通道数 = 输入的通道数,一般为 3,代表图像的红、绿、蓝三种颜色)。 卷积的计算过程: 属于同一输入通道的卷积核在对应的图像数据上进行滑动,并在每一个位置处计算这 9 个数据的点积和; 将每个输入通道的计算结果在每个位置上进行相加,得到形状为 (1, 3, 3) 的输出;...
2025-08-14
qwen3_vl_video_cudagraph_implementation
Qwen3-VL 视频模态 Full CUDA Graph 支持实现基于 PR #35963(已合入 main),在其图像 CUDA Graph 支持的基础上,扩展实现视频模态的 Full CUDA Graph 支持。 修改文件总览 文件 改动类型 说明 vllm/v1/worker/gpu/mm/encoder_cudagraph_defs.py 数据结构扩展 新增多模态配置字段和状态字段 vllm/v1/worker/gpu/mm/encoder_cudagraph.py 核心逻辑扩展 per-modality budget 管理、自动模态检测、时序帧约束检查 vllm/model_executor/models/interfaces.py 协议扩展 新增 get_encoder_cudagraph_num_seqs 方法 vllm/model_executor/models/qwen3_vl.py 模型实现 为所有协议方法添加视频支持 tests/v1/cudagraph/test_encoder_cudagraph.py 测试更新 适配新的多模...