Profiling 分析指南

发表于2025-11-02|更新于2026-06-10|LLM

|浏览量:

Profiling 分析指南

Ascend NPU + MindStudio Insight

关键文件：

trace_view.json
kernel_details.csv
op_stastic.csv

kernel_details.csv 分析指南：

冻结首行，start time 排序，只看一个 layer 的数据。
数量比较多的 stream id 就是“主流”，其它的是通信流、共享专家流（实现计算通信并行）。
静态/动态算子。
Duration（优化目标）：尽量让算子达到计算 bound，减少访存 bound -> 判断优化方向。
判断性能瓶颈：每个算子的时间除以整个 layer 的时间，再转换为百分比的形式 -> 判断优化重点。

trace_view.json 分析指南：

一般不用关注 CANN 这一层。
算子的实际执行时间主要看 Ascend Hardware 这一层。
AI Core Freq：当芯片温度比较高时，可能会出现降频，导致计算性能下降。

CV 并行：
cube 和 vector 是相互独立的计算单元，可以放到两条流上并行计算（但是会争访存带宽）。

bubble 分析：
观察设备 free 时间，算子执行之间有间隔，通过前后两个算子（连线）对应的 host 操作夹一下，找到 bubble 产生的位置（仅限不开图模式时）。

如何消除 bubble：
1.分析逻辑是否必要，消除、移到其它地方；
2.先下发高计算强度的算子，再下发低计算强度的算子（前提：前后之间没有依赖，可以调整顺序）；
3.邦核；
4.入图；

分析通信带宽是否合理：
通信算子的 count * 字节数 / latency = 理论通信带宽。

开启图模式之后的现象：
1.设备 free 总时长明显缩短；
2.设备主流上算子之间的间隔明显缩短，计算更密集。

怎么判断一个算子已经达到了计算 bound？
1.看 cube/vector/ai-core 利用率要达到 70-90%（prefill）；
2.找算子同学确认（计算公式很复杂）、利用分析工具。

文章作者: xhj

文章链接: https://hzhzxfs.github.io/2025/11/02/Profiling%20%E5%88%86%E6%9E%90%E6%8C%87%E5%8D%97/

版权声明: 本博客所有文章除特别声明外，均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 xhj的博客！

相关推荐

qwen3_vl_mm_kwargs_analysis

Qwen3-VL mm_kwargs 多模态输入分析报告分析文件：vllm/model_executor/models/qwen3_vl.py 核心结论mm_kwargs 不是单个视觉输入（单张图片或单个视频）的表示，而是请求级别（request-level）的聚合结构，包含该请求中所有图像和/或视频的数据。 mm_kwargs 在 Qwen3-VL 中有两种截然不同的含义，出现在不同的调用层次：处理时（Processing-time）mm_kwargs：用户传入的”控制参数”，指定如何对媒体数据进行预处理（分辨率、帧率等）。前向推理时（Forward-time）mm_kwargs：经过处理后传入模型 forward 的”张量数据”，包含该请求所有图像/视频的 pixel values 和 grid 信息。一、处理时 mm_kwargs（用户侧配置参数）出现在 _get_vision_info、_call_hf_processor、get_max_video_tokens 等处理阶段，由用户在发起请求时传入，用于覆盖处理器的默认配置。 1.1...

TorchAir学习笔记

TorchAir 学习笔记Eager Mode（单算子模式）：优点：立即执行并返回结果；易用、可调试；动态构建计算图（图的形状和大小可以在运行时改变）；缺点：可能存在性能问题（host bound），每一次 OP 调用触发一次 python/C++ 相关处理（torch/torch-npu/CANN）。 PyTorch 图模式演进： torch.jit -> lazy tensor -> TorchDynamo（PyTorch 2.0 正式集成，对外提供 torch.compile API，不光提供了成图能力，也同时发布了 Inductor 代码生成后端） torch.compile 底层原理：前端：图定义：torch fx 定义了一种图结构表达，并且能够进行 python 代码生成；图生成：TorchDynamo 解析 python 编译后的 PyCodeObject 字节码，并生成一张 fx 图（传给用户定义的 Compiler）；后端：图编译、图执行：TorchAir 是 torch.compile 里的...

Qwen3-VL-8B在910B4推理调用超过上下文长度的图片报错

12345678# localscp -P 8333 images.zip root@139.9.155.20:/media/# remotesudo apt updatesudo apt install -y unzipcd /mediaunzip images.zip 准备图片： 12345678910111213141516#!/usr/bin/env bashimage_base64=$(base64 -w 0 /media/b0.jpg)cat > /media/image_request.json <<EOF{ "model": "/root/.cache/modelscope/hub/models/Qwen/Qwen3-VL-8B-Instruct", "messages": [ {"role": "system", "content": "You are a helpfu...

AI训练&推理常用依赖库

AI 训练 & 推理常用依赖库PyTorchtorch…… torchaudiotorchaudio 是 PyTorch 官方用于处理音频数据和进行音频相关深度学习任务的工具包，提供了音频数据的加载和保存、频谱分析、预训练的音频模型（支持音频分类、语音识别等任务）、与 PyTorch 的数据集和数据加载器集成等功能。 torchaudio.load() 是 torchaudio 库中的一个函数，用于加载音频文件并返回音频数据及其采样率。它可以方便地将音频文件加载到 PyTorch 的张量中，以便进行后续的音频处理和深度学习任务。具体功能包括：读取音频文件：支持多种音频格式（如 WAV、MP3 等）；返回数据和采样率：返回两个值：音频信号的张量表示（通常是浮点数）和音频的采样率（Hz），方便后续处理和分析。 torchaudio.functional.resample(y, orig_freq=xxx, new_freq=xxx) 是用于对音频信号进行重采样的函数。该函数适用于需要调整音频采样率的场景，如匹配不同音频源的采样频率或准备音频数据以供模型训练。具体功...

推理引擎推理系统与推理引擎训练和推理服务推理和训练的区别：模型部署后，长期运行；不需要反向传播；部署设备更加多样。推理服务系统的功能（与 AI 算法关系不大，更多地是平台性的工作）：模型加载；版本管理；数据管理；服务接口。优化目标低延迟；高吞吐：高负载；高效率：低功耗使用 CPU/GPU；灵活性：支持多框架；扩展性。部署态场景：数据中心的服务端、边缘侧的移动端。云端；边侧：严格约束功耗、算力不足、数据分散、平台多样化。推理系统架构推理服务化、推理服务框架。基本概念：推理：前向计算；部署：将模型部署到硬件上，包括：移植、压缩、加速等；服务化：将模型封装为 sdk 或 web 服务。 Triton 服务化框架：接入层：HTTP、gRPC、CAPI；模型仓库；模型预编排：解析 URL 请求；框架后端：指推理引擎（如 TensorRT、ONNX Runtime、MindSpore Lite 等）；监控功能：健康管理。模型版本管理模型生命周期管理：金丝雀策略（Canary）；回滚策略（Rollba...

一、引言目前，在大模型推理领域中，Guided Decoding 技术广泛用于生成一些特定格式的输出，如：SQL、JSON 等。本文将基于 vLLM 以及 Outlines 后端，深入解析 Guided Decoding 背后的技术原理。二、什么是 Guided Decoding？一般来说，LLM 的输出通常是一段符合人类表达习惯的文本序列，这让我们可以利用 LLM 来回答问题或是创作内容。然而，当我们需要 LLM 的输出符合特定的格式（如：JSON、SQL、正则表达式等）时——例如希望 LLM 根据我们的需求生成查询数据库的 SQL 语句，通过微调的方法通常很难达到我们预期的效果。这时，就需要用到 Guided Decoding 技术，它可以通过影响模型输出层的 Logits 分布（施加 Mask 过滤不满足要求的 Token）来达到规范模型输出格式的效果。 🌰 举个例子：我们可以向 LLM 输入一个 Prompt 以及对应的格式数据： 12345678910111213141516171819# Guided decoding by JSON using Pydanti...