Qwen3-VL-8B在910B4推理调用超过上下文长度的图片报错

发表于2025-08-08|更新于2026-06-10|LLM

|浏览量:

# local
scp -P 8333 images.zip root@139.9.155.20:/media/

# remote
sudo apt update
sudo apt install -y unzip
cd /media
unzip images.zip

准备图片：

#!/usr/bin/env bash

image_base64=$(base64 -w 0 /media/b0.jpg)
cat > /media/image_request.json <<EOF

{
    "model": "/root/.cache/modelscope/hub/models/Qwen/Qwen3-VL-8B-Instruct",
    "messages": [
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": [
            {"type": "image_url", "image_url": {"url": "data:image/jpeg;base64,$image_base64"}},
            {"type": "text", "text": "What is the text in the illustrate?"}
        ]}
    ]
}
EOF

export PYTORCH_NPU_ALLOC_CONF='expandable_segments:True'
export NPU_MEMORY_FRACTION=0.96

vllm serve /root/.cache/modelscope/hub/models/Qwen/Qwen3-VL-8B-Instruct \
--max_model_len 32768 \
--enforce-eager \
--gpu-memory-utilization 0.75


curl -X POST http://localhost:8000/v1/chat/completions \
-H "Content-Type: application/json" \
-d @/media/image_request.json

curl http://xxxx:50000/v1/chat/completions  -H "Content-Type: application/json" -d @/tmp/request.json

文章作者: xhj

文章链接: https://hzhzxfs.github.io/2025/08/08/Qwen3-VL-8B%E5%9C%A8910B4%E6%8E%A8%E7%90%86%E8%B0%83%E7%94%A8%E8%B6%85%E8%BF%87%E4%B8%8A%E4%B8%8B%E6%96%87%E9%95%BF%E5%BA%A6%E7%9A%84%E5%9B%BE%E7%89%87%E6%8A%A5%E9%94%99/

版权声明: 本博客所有文章除特别声明外，均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 xhj的博客！

相关推荐

多卡推理中CUDA-Graph协同计算解析

这是一个非常好的问题，它触及了现代大模型推理优化的核心。我们来详细拆解一下 torch.compile() 生成的 CUDA Graph 是如何在分布式多卡环境下协同工作的。首先，要明确一个关键点：torch.compile 和 CUDA Graph 是两种不同但可以协同工作的优化技术。 torch.compile：它是一个编译器。它捕获你的 PyTorch 模型（一个动态图），将其编译成一个优化的、静态的计算图。这个优化后的图可以由不同的后端执行，其中最强大的后端就是 inductor。 CUDA Graph：它是一种执行模式。它通过捕获在 GPU 上执行的一系列内核（kernel）来创建一个“图”，然后可以多次、高效地重放这个图，避免了 CPU 驱动开销、启动内核的开销等。在 torch.compile 的 inductor 后端中，一个非常重要的优化就是自动生成并利用 CUDA Graph 来执行编译好的计算图。现在，我们来看多卡（分布式）推理的场景。这里通常使用 Tensor Parallelism（张量并行）或 Pipeline Parallelism（...

分布式多卡推理通信域建立与动态通信域解析

好的，这是一个非常核心且专业的问题。我们来详细拆解一下分布式多卡推理中通信域的建立过程，并解释动态通信域的概念。第一部分：分布式多卡推理中通信域的建立过程在分布式计算中，通信域是一个核心抽象，它定义了一组可以相互通信的进程。在大模型推理中，由于单个GPU的显存无法容纳整个模型（如拥有数百亿甚至上万亿参数的模型），我们必须将模型“拆分”并分布到多个GPU上。这个过程主要依赖于 NCCL 这个由NVIDIA打造的高性能通信库。NCCL优化了GPU之间（包括单机多卡和多机多卡）的集合通信操作，如 all-reduce, all-gather, broadcast 等，这些操作在模型并行和流水线并行中至关重要。建立通信域的过程可以概括为以下几个步骤： 1. 进程初始化分布式任务通常由多个进程组成，每个进程控制一个或多个GPU。在开始任何通信之前，这些进程需要知道自己和同伴的存在。工具库: 通常使用 torch.distributed（对于PyTorch用户）来管理分布式进程组。关键函数: torch.distributed.init_process_group(...) ...

一、引言目前，在大模型推理领域中，Guided Decoding 技术广泛用于生成一些特定格式的输出，如：SQL、JSON 等。本文将基于 vLLM 以及 Outlines 后端，深入解析 Guided Decoding 背后的技术原理。二、什么是 Guided Decoding？一般来说，LLM 的输出通常是一段符合人类表达习惯的文本序列，这让我们可以利用 LLM 来回答问题或是创作内容。然而，当我们需要 LLM 的输出符合特定的格式（如：JSON、SQL、正则表达式等）时——例如希望 LLM 根据我们的需求生成查询数据库的 SQL 语句，通过微调的方法通常很难达到我们预期的效果。这时，就需要用到 Guided Decoding 技术，它可以通过影响模型输出层的 Logits 分布（施加 Mask 过滤不满足要求的 Token）来达到规范模型输出格式的效果。 🌰 举个例子：我们可以向 LLM 输入一个 Prompt 以及对应的格式数据： 12345678910111213141516171819# Guided decoding by JSON using Pydanti...

推理引擎推理系统与推理引擎训练和推理服务推理和训练的区别：模型部署后，长期运行；不需要反向传播；部署设备更加多样。推理服务系统的功能（与 AI 算法关系不大，更多地是平台性的工作）：模型加载；版本管理；数据管理；服务接口。优化目标低延迟；高吞吐：高负载；高效率：低功耗使用 CPU/GPU；灵活性：支持多框架；扩展性。部署态场景：数据中心的服务端、边缘侧的移动端。云端；边侧：严格约束功耗、算力不足、数据分散、平台多样化。推理系统架构推理服务化、推理服务框架。基本概念：推理：前向计算；部署：将模型部署到硬件上，包括：移植、压缩、加速等；服务化：将模型封装为 sdk 或 web 服务。 Triton 服务化框架：接入层：HTTP、gRPC、CAPI；模型仓库；模型预编排：解析 URL 请求；框架后端：指推理引擎（如 TensorRT、ONNX Runtime、MindSpore Lite 等）；监控功能：健康管理。模型版本管理模型生命周期管理：金丝雀策略（Canary）；回滚策略（Rollba...

推理加速模型量化数值类型LLM 的训练和推理要尽量使用 BF16，而不是 FP16/HF16/FP32。 FP32：单精度浮点数，用 8 bit 表示指数，23 bit 表示小数； FP16：半精度浮点数，用 5 bit 表示指数，10 bit 表示小数； BF16：对 FP32 单精度浮点数截断数据（小数部分），即用 8 bit 表示指数，7 bit 表示小数。这里的计算方式不太懂？ BF16 vs HF16： BF16 拥有 7 位精度，而 HF16 拥有 10 位精度。这表明在表示接近于 1 的小数值时，HF16 比 BF16 能提供更高的精度。然而，BF16 拥有与 FP32 相同的 8 位指数部分，因而能够表示与 FP32 几乎一样广泛的数值范围，这对于避免上溢和下溢非常重要。尽管 BF16 在尾数精度上不如 HF16，但在深度学习应用中，这种较宽的数值范围通常比尾数的额外几位精度更为重要。这是因为深度学习模型通常对权重的尾数精度不是非常敏感，而更依赖于能够处理范围广泛的梯度和权重值。总结：量化后速度并不能明显提高，但占用的显存显著减...

vLLM 算力多样性｜Platform 插件与 CustomOp

vLLM 算力多样性｜Platform 插件与 CustomOp一、引言随着 vLLM 逐渐成为生产级场景下大模型推理的通用解决方案之一，期望 vLLM 支持各式各样算力底座的需求日趋强烈。目前，在 vLLM 的官方仓库中维护着 NVIDIA GPU、AMD GPU 以及 Google TPU 等多家芯片厂商的代码，但除此之外，还有更多的 AI 芯片是通过“硬件插件化机制”来支持自家算力的。所有不在 vLLM 官方仓库中支持的硬件，都被统称为 OOT（Out Of Tree）Device，包括：官方插件（指存在于 vllm-project 官方项目下的插件）：vllm-ascend（华为昇腾 NPU）、vllm-spyre、vllm-gaudi（Intel Gaudi）、vllm-neuron（AWS Neuron）、vllm-metal（Apple Silicon）等；非官方插件：vLLM-metax（沐曦 GPU）、vLLM-Kunlun（百度昆仑芯 XPU）等。本文将深入介绍 vLLM 硬件插件化系统的原理，以及如何通过 CustomOp 完成自定义算子的注册与...