Qwen3-VL-8B推理结果为空

发表于2025-08-09|更新于2026-06-10|LLM

|浏览量:

python -m vllm.entrypoints.openai.api_server \
--model /root/.cache/modelscope/hub/models/Qwen/Qwen3-VL-8B-Instruct \
--dtype bfloat16 \
--gpu-memory-utilization 0.9 \
--max-model-len 8192  \
--max_num_batched_tokens 8192

--host 0.0.0.0 \
--port 8000 \
--compilation-config '{"cudagraph_capture_sizes": [1, 2, 4, 8, 16, 32, 64, 128, 256, 512]}'


curl -X POST http://localhost:8000/v1/chat/completions \
    -H "Content-Type: application/json" \
    -d '{
        "model": "/root/.cache/modelscope/hub/models/Qwen/Qwen3-VL-8B-Instruct",
        "messages": [
            {"role": "system", "content": "You are a helpful assistant."},
            {"role": "user", "content": [
                {"type": "image_url", "image_url": {"url": "https://modelscope.oss-cn-beijing.aliyuncs.com/resource/qwen.png"}},
                {"type": "text", "text": "What is the text in the illustrate? How does it look?"}
            ]}
        ],
        "max_tokens": 4096
    }'

max_completion_tokens

文章作者: xhj

文章链接: https://hzhzxfs.github.io/2025/08/09/Qwen3-VL-8B%E6%8E%A8%E7%90%86%E7%BB%93%E6%9E%9C%E4%B8%BA%E7%A9%BA/

版权声明: 本博客所有文章除特别声明外，均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 xhj的博客！

相关推荐

Qwen3-Omni没有vllm_config属性

1234class Qwen3OmniMoeThinkerForConditionalGeneration: def __init__(...): self.vllm_config = vllm_config

qwen3_vl_image_vs_video_inference

Qwen3-VL：图像推理与视频推理的区别1. 输入预处理图像输入为静态图片，经过 image_processor 处理使用 Conv3dLayer（temporal_patch_size=2）对图片做 patch 嵌入，但 t=1（单帧）输出 pixel_values（shape: [num_patches, flattened_patch_size]） grid 信息保存在 image_grid_thw，每条记录为 [1, H, W] 视频输入为视频帧序列，经过 video_processor 处理先均匀采样若干帧（如 16 帧），再按 temporal_patch_size=2 分组打包成时序 patch 输出 pixel_values_videos（shape: [num_patches, flattened_patch_size]） grid 信息保存在 video_grid_thw，每条记录为 [T, H, W]，T≥1 表示时序维度 2. 输入格式差异维度图像视频 pixel values key pixel_va...

Profiling 分析指南

Profiling 分析指南Ascend NPU + MindStudio Insight关键文件： trace_view.jsonkernel_details.csvop_stastic.csv kernel_details.csv 分析指南：冻结首行，start time 排序，只看一个 layer 的数据。数量比较多的 stream id 就是“主流”，其它的是通信流、共享专家流（实现计算通信并行）。静态/动态算子。Duration（优化目标）：尽量让算子达到计算 bound，减少访存 bound -> 判断优化方向。判断性能瓶颈：每个算子的时间除以整个 layer 的时间，再转换为百分比的形式 -> 判断优化重点。 trace_view.json 分析指南：一般不用关注 CANN 这一层。算子的实际执行时间主要看 Ascend Hardware 这一层。AI Core Freq：当芯片温度比较高时，可能会出现降频，导致计算性能下降。 CV 并行：cube 和 vector 是相互独立的计算单元，可以放到两条流上并行计算（但是会争访存带宽）。 bu...

LLM 学习项目

LLM 学习项目KuiperLLama 采用最新的 C++ 20 标准去写代码，统一、美观的代码风格，良好的错误处理；优秀的项目管理形式，我们采用 CMake + Git 的方式管理项目，接轨大厂；授人以渔，教大家怎么设计一个现代 C++ 项目，同时教大家怎么用单元测试和 Benchmark 去测试验证自己的项目； CPU 算子和 CUDA 双后端实现，对时新的大模型（LLama3 和 Qwen 系列）有非常好的支持。项目地址：https://github.com/zjhellofss/KuiperLLama。 lightllm推荐用 lightllm 这个项目学习 Triton for LLM，它是一个纯 python 的 LLM 推理服务框架，用 Triton 实现了各类 LLM 需要的 layer。项目地址：https://github.com/ModelTC/lightllm。 Material for gpu-mode lectures如何系统地学习CUDA？这个课程算是比较全面的，像 profile、triton、cutlass、FlashAttention...

为什么不用单张高分辨率图？

一、为什么不用单张高分辨率图？传统 VLM 如果直接输入：比如： 1024×1024 1536×1536 ViT patch 数会急剧上升。假设 patch size = 14（ViT 常见）那么 token 数近似： 728×728[(728/14)^2 = 52^2 = 2704] 1024×1024[(1024/14)^2 \approx 73^2 = 5329] 几乎翻倍。而 ViT self-attention复杂度是： O(N^2) token翻倍，attention计算可能接近 4倍。所以 Step3-VL 的策略是：不要让一张图特别大，而是拆成：一个全局图 + 多个局部图这样可以：保持 global understanding 获得 local detail batch 并行计算更友好论文里明确提到： exploits batch-dimension parallelism, avoiding variable-length packing complexity. (Hy...

SHMShared Memory = 多个进程/设备可以“直接访问同一块内存”的机制。普通进程通信（非 SHM）：进程 A → 拷贝 → 内核 → 拷贝 → 进程 B（数据被复制多次）； Shared Memory：进程 A ↔ 同一块内存 ↔ 进程 B（没有中间 copy）。 SHM 在不同层的含义：操作系统：POSIX / System V SHM。OS 分配一块内存，映射到多个进程的虚拟地址空间。特点：零拷贝（进程间）、需要同步机制（锁、信号量）。比如：from multiprocessing import shared_memory； GPU / CUDA：GPU SM 内部的片上共享内存，给 thread block 用。特点：超快（比 global memory 快很多）。比如：__shared__ float buf[256]；容器 / Docker：是一个 tmpfs（内存文件系统），用来做进程间共享内存。比如 docker run --shm-size=8g，对应 /dev/shm。在 vLLM ...