Qwen3-Omni没有vllm_config属性

发表于2025-08-07|更新于2026-06-10|LLM

|浏览量:

class Qwen3OmniMoeThinkerForConditionalGeneration:

    def __init__(...):
        self.vllm_config = vllm_config

文章作者: xhj

文章链接: https://hzhzxfs.github.io/2025/08/07/Qwen3-Omni%E6%B2%A1%E6%9C%89vllm_config%E5%B1%9E%E6%80%A7/

版权声明: 本博客所有文章除特别声明外，均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 xhj的博客！

相关推荐

Qwen2.5-VL_RoPE计算流程详解

Qwen2.5-VisionTransformer 中 RoPE cos/sin 的计算流程整个流程从 forward(x, grid_thw) 开始，分为以下几个阶段：第一步：初始化时预计算 cos/sin 缓存qwen2_5_vl.py:608-612 123456self.rotary_pos_emb = get_rope( head_size=head_dim, max_position=8192, is_neox_style=True, rope_parameters={"partial_rotary_factor": 0.5},) get_rope 最终创建一个 RotaryEmbedding 对象，关键参数： rotary_dim = head_dim * 0.5 → 只使用一半的 head 维度做旋转在 _compute_cos_sin_cache 中(base.py:83-92)： 12345# inv_freq 形状: [rotary_dim // 2]inv_fr...

Qwen2-VL精度问题

Qwen2-VL 精度问题12345678------------------------------ Captured log call -------------------------------WARNING transformers.models.auto.image_processing_auto:logging.py:328 The image processor of type `Qwen2VLImageProcessor` is now loaded as a fast processor by default, even if the model checkpoint was saved with a slow processor. This is a breaking change and may produce slightly different outputs. To continue using the slow processor, instantiate this class with `use_fast=False`. Note that t...

Ray框架中Placement Group概念及作用

好的，我们来详细解释一下 Ray 框架中的 Placement Group 概念及其作用。核心概念：什么是 Placement Group？Placement Group 是 Ray 中用于精细化控制任务或角色资源布局的抽象概念。它允许你提前声明一“组”资源，并指定这组资源在集群中的“摆放策略”，然后你可以将任务或演员调度到这组资源的“插槽”中。你可以把它想象成：传统调度：就像你去餐厅，告诉服务员“我需要两个座位”，服务员会随机找两个空位给你。使用 Placement Group：就像你提前预定了一个包含特定座位（比如一个沙发座和两个普通座）的卡座，并指定这个卡座要靠窗。之后你的朋友们会直接到这个预定好的卡座就坐。为什么需要 Placement Group？它的作用是什么？在没有 Placement Group 的情况下，Ray 的默认调度器虽然能高效地分配资源，但它主要关注的是“资源量”（例如，需要 2 个 CPU），而不太关心“资源的位置”。这在很多高级场景下会成为一个瓶颈。 Placement Group 的主要作用体现在以下几个方面： 1. 实现任务间的紧...

RDMA基本原理RDMA 本质：“zero-copy + 远程内存访问”。 zero-copy？指数据从源头到目的地，中间不经过 CPU 内存的“中转拷贝”。传统路径：GPU A -copy-> CPU 内存 -socket send-> 内核 buffer -网络-> 对端内核 buffer -> CPU 内存 -copy-> GPU B； zero-copy：GPU A memory -> GPU B memory，数据不经过 CPU 内存，CPU 只负责“发指令”，数据由 DMA / RDMA NIC / GPU copy engine 直接搬运。 zero-copy 并不是“完全没有 copy”，而是：copy 仍然发生，但不经过 CPU 和额外 buffer。 DMA（Direct Memory Access）：Device 直接读写内存，不经过 CPU（CPU 不参与数据搬运）； RDMA（Remote Direct Memory Access）：机器 A 内存 -> 机器 B 内存，绕过 CP...

Reasoning Output

Reasoning Output基本概念Reasoning Models推理模型，顾名思义指具备推理能力的大语言模型（如：DeepSeek-R1），目前业内有“Understanding Reasoning LLMs”、“Reasoning models”、“Reasoning LLMs”等多种说法。两大特点：复杂任务/场景适应性强：推理模型尤其擅长将复杂问题/任务分解后，高度还原人类的思维过程（如尝试和验证不同的方法，直至找到最佳解决方案，输出结果），这种方式可能导致推理时间延长，但在理解和处理复杂的任务场景时，成功率和精准度却能成倍增长。而且通过多场景的强化学习，大模型在新问题中的泛化能力和鲁棒性也更好；可解释性更强：相比以往直接输出答案，推理模型还会详细、分步骤给出推理过程，用来解释为什么会给出这样的答案。虽然最终的答案可能和通用大模型直接生成的答案类似，但因为推理过程公开透明，使得一定程度上能打破大众对大模型“黑盒”问题的顾虑，推理模型生成的答案，可信度与可解释性也因此大幅增强。此外，即便输出结果有偏差，通过检查和纠正推理步骤，也能更快发现问题...

大模型推理加速岗位学习路线

大模型推理加速岗位学习路线基础知识 Transformer/SelfAttention 原理（精读论文：Attention is all you need） FlashAttention 原理（精读论文） KVCache 原理 FasterTransformer/DeepSpeed/TensorRT-LLM 使用（推理加速） CUDA/CANN 编程（算子开发） vLLM 精读 PagedAttention 论文阅读 vLLM 源码 Prefill/Decode 性能分析（PD 混合/分离）参考资料 Basic LLM Inference/Generation