Reasoning Output

发表于2025-11-04|更新于2026-06-10|LLM

|浏览量:

Reasoning Output

基本概念

Reasoning Models

推理模型，顾名思义指具备推理能力的大语言模型（如：DeepSeek-R1），目前业内有“Understanding Reasoning LLMs”、“Reasoning models”、“Reasoning LLMs”等多种说法。

两大特点：

复杂任务/场景适应性强：推理模型尤其擅长将复杂问题/任务分解后，高度还原人类的思维过程（如尝试和验证不同的方法，直至找到最佳解决方案，输出结果），这种方式可能导致推理时间延长，但在理解和处理复杂的任务场景时，成功率和精准度却能成倍增长。而且通过多场景的强化学习，大模型在新问题中的泛化能力和鲁棒性也更好；
可解释性更强：相比以往直接输出答案，推理模型还会详细、分步骤给出推理过程，用来解释为什么会给出这样的答案。虽然最终的答案可能和通用大模型直接生成的答案类似，但因为推理过程公开透明，使得一定程度上能打破大众对大模型“黑盒”问题的顾虑，推理模型生成的答案，可信度与可解释性也因此大幅增强。此外，即便输出结果有偏差，通过检查和纠正推理步骤，也能更快发现问题，整个过程也更可控。

文章作者: xhj

文章链接: https://hzhzxfs.github.io/2025/11/04/Reasoning%20Output/

版权声明: 本博客所有文章除特别声明外，均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 xhj的博客！

相关推荐

启动时未指定max_model_len导致通信卡死

启动时未指定 max_model_len 导致通信卡死排查记录12345vllm serve /root/.cache/modelscope/hub/models/Qwen/Qwen3-VL-30B-A3B-Instruct \--tensor-parallel-size 4 \--enable-expert-parallel \--enforce-eager \--max_model_len 131072 1234INFO 10-25 02:18:40 [parallel_state.py:1208] rank 0 in world size 4 is assigned as DP rank 0, PP rank 0, TP rank 0, EP rank 0INFO 10-25 02:18:40 [parallel_state.py:1208] rank 1 in world size 4 is assigned as DP rank 0, PP rank 0, TP rank 1, EP rank 1INFO 10-25 02:18:40 [parallel_state....

大模型 LoRA 微调的数学原理

大模型 LoRA 微调的数学原理一、概述LoRA（Low-Rank Adaptation，低秩适配器）是目前非常热门的大模型微调技术之一，网上已经有许多关于其原理的分析和讲解，本文将着重从 LoRA 背后的数学原理进行解读。二、背景介绍2.1 基本概念大模型微调（Fine-tuning）：基于已经训练好的预训练模型，针对特定的下游任务，在特定领域的数据集上进行二次训练，以提升模型在特定任务上的表现。全量微调：在下游任务的训练中，对预训练模型的每一个参数都做更新（训练代价昂贵）；局部微调：冻结（不更新）预训练模型的权重，只对部分增量权重进行训练，从而有效降低训练的代价（实用性更高）。 2.2 研究现状在 LoRA 微调技术出现之前，现有的大模型微调技术存在以下缺点： Adapter Tuning：在模型中添加额外的 Adapter 层，并只针对这些 Adapter 的权重进行训练。这将导致模型整体的层数变深，从而使模型的训练/推理耗时增加（因为新增的 Adapter 层与模型中的其它层是串行的，无法充分利用硬件能力进行并行计算）； Prefix Tuning：...

分布式系统控制面与数据面解析

好的，这是一个非常核心的分布式系统设计概念。我们可以用一个生动的比喻来开始，然后深入技术细节。核心比喻：空中交通管制系统控制面就像是空中的交通管制塔和调度员。他们不直接开飞机（处理乘客和货物）。他们的工作是：规划航线、指挥飞机起飞和降落、监控所有飞机的状态和位置、处理紧急情况、分配跑道和空域。他们做出决策，确保整个系统安全、有序地运行。数据面就像是飞机本身和跑道。它们负责实际的运输工作：搭载乘客、装载货物、在指定的航线上飞行。它们不决定去哪、怎么飞，而是忠实地执行控制塔发出的指令，专注于高效、安全地完成“运输”这个核心任务。详细解释1. 控制面控制面是系统的大脑和神经系统，负责管理、协调和决策。它不直接处理用户的业务请求，而是确保数据面能够正确、高效地处理这些请求。主要职责：系统配置与管理：管理网络配置、服务发现、负载均衡策略、安全策略（如防火墙规则）等。状态监控与收集：收集整个系统中所有组件（数据面节点）的健康状态、性能指标（如CPU、内存、流量）、日志和拓扑信息。路由决策：决定数据包的转发路径。例如，在微服务网络中，控制面决定一个...

vLLM 学习笔记｜Guided Decoding (V1)

vLLM 学习笔记｜Guided Decoding (V1)一、引言Guided Decoding，又叫 Structured Output，是大模型推理领域中非常重要的一个特性，主要用于引导大模型输出符合某种特定格式（如：SQL、Json）的结果，以便更好地将大模型落地到具体的应用场景中。在我的上一篇文章中，简要地介绍了 Guided Decoding 的原理，并详细分析了 vLLM 中相关代码的实现（V0），文章链接如下：link。自从 vLLM v0.8.x 之后，V1 Engine 将作为 vLLM 启动时的默认选项。关于 V1 Engine 的系统设计以及具体的优化点，我将会在之后逐步梳理并分享出来（如果有空的话）。而在本文中，我将针对 V1 Engine，分享 Structured Output 模块的整体设计与具体实现。二、V1 Engine 整体架构在介绍 Structured Output 模块的设计之前，让我们先来看下 vLLM V1 Engine 的整体架构。在 V1 中，vLLM 将不同类型的 CPU 密集型操作拆分到了两个相互独立的进程中，以便能够...

Qwen3-VL-8B推理结果为空

123456789101112131415161718192021222324252627python -m vllm.entrypoints.openai.api_server \--model /root/.cache/modelscope/hub/models/Qwen/Qwen3-VL-8B-Instruct \--dtype bfloat16 \--gpu-memory-utilization 0.9 \--max-model-len 8192 \--max_num_batched_tokens 8192--host 0.0.0.0 \--port 8000 \--compilation-config '{"cudagraph_capture_sizes": [1, 2, 4, 8, 16, 32, 64, 128, 256, 512]}'curl -X POST http://localhost:8000/v1/chat/completions \ -H "Content-Type: app...

AI训练&推理常用依赖库

AI 训练 & 推理常用依赖库PyTorchtorch…… torchaudiotorchaudio 是 PyTorch 官方用于处理音频数据和进行音频相关深度学习任务的工具包，提供了音频数据的加载和保存、频谱分析、预训练的音频模型（支持音频分类、语音识别等任务）、与 PyTorch 的数据集和数据加载器集成等功能。 torchaudio.load() 是 torchaudio 库中的一个函数，用于加载音频文件并返回音频数据及其采样率。它可以方便地将音频文件加载到 PyTorch 的张量中，以便进行后续的音频处理和深度学习任务。具体功能包括：读取音频文件：支持多种音频格式（如 WAV、MP3 等）；返回数据和采样率：返回两个值：音频信号的张量表示（通常是浮点数）和音频的采样率（Hz），方便后续处理和分析。 torchaudio.functional.resample(y, orig_freq=xxx, new_freq=xxx) 是用于对音频信号进行重采样的函数。该函数适用于需要调整音频采样率的场景，如匹配不同音频源的采样频率或准备音频数据以供模型训练。具体功...