线性代数基本概念
发表于|更新于|LLM
|浏览量:
线性代数基本概念
奇异值分解在统计中的主要应用为主成分分析(PCA)。数据集的特征值(在 SVD 中用奇异值表征)按照重要性排列,降维的过程就是舍弃不重要的特征向量的过程,而剩下的特征向量张成空间为降维后的空间。
文章作者: xhj
版权声明: 本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 xhj的博客!
相关推荐
2025-11-20
大模型推理加速岗位学习路线
大模型推理加速岗位学习路线基础知识 Transformer/SelfAttention 原理(精读论文:Attention is all you need) FlashAttention 原理(精读论文) KVCache 原理 FasterTransformer/DeepSpeed/TensorRT-LLM 使用(推理加速) CUDA/CANN 编程(算子开发) vLLM 精读 PagedAttention 论文 阅读 vLLM 源码 Prefill/Decode 性能分析(PD 混合/分离) 参考资料 Basic LLM Inference/Generation
2025-08-03
Qwen2-VL精度问题
Qwen2-VL 精度问题12345678------------------------------ Captured log call -------------------------------WARNING transformers.models.auto.image_processing_auto:logging.py:328 The image processor of type `Qwen2VLImageProcessor` is now loaded as a fast processor by default, even if the model checkpoint was saved with a slow processor. This is a breaking change and may produce slightly different outputs. To continue using the slow processor, instantiate this class with `use_fast=False`. Note that t...
2025-10-06
vLLM V1 整体流程|从请求到算子执行
vLLM V1 整体流程|从请求到算子执行一、引言vLLM V1 是 vLLM 团队基于 V0 的实践经验并参考工业界其它相关工作提出的最新架构,从 vLLM 0.8.x 版本开始,V1 Engine 将作为 vLLM 启动时的默认选项。 相比于 V0,vLLM V1 具有以下优势: 可读性:代码更加简洁易懂、更加模块化; 高性能:提供更好的推理性能,使用双进程异步处理不同的 CPU 操作,极大地降低了推理的时延和开销; 易扩展:可以轻松集成多样化的特性; 易用性:简化了配置,会默认开启一些特性,以提供更好的性能和体验。 下面,本文将揭秘 vLLM V1 从接收请求到算子执行的推理全流程(附超长流程图,画图不易,欢迎点赞 & 收藏~)。 二、整体概览在深入具体细节之前,让我们先从整体上认识下 V1 Engine 的推理流程。 下面是 vLLM 官方博客中提供的 V1 Engine 在线推理架构图。在 V1 中,vLLM 将不同类型的 CPU 密集型操作拆分到了两个相互独立的进程中,以便能够异步执行不同的 CPU 操作,减少了不同步骤之间相互等待的时间,因此能够更好地压...
2025-10-02
Ascend NPU 硬件架构入门
Ascend NPU 硬件架构入门一、概述昇腾 NPU 是专门用于 AI 训练/推理计算的 AI 专用处理器,其中的 AI Core 能够在很大程度上提高 AI 计算的效率。 本文将主要介绍 ASCEND NPU 的硬件架构 & 工作原理、AI Core 的计算模式以及异构计算平台 CANN 等内容。 二、NPU 硬件架构2.1 NPU SOC 架构2.1.1 Ascend 310 架构 AI Core:计算核心,负责执行矩阵、向量、标量计算密集的算子任务,采用达芬奇架构; AI CPU:承担非矩阵类复杂计算,即负责执行不适合跑在 AI Core 上的算子; TS Core:作为任务调度器(Task Scheduler,TS),以实现计算任务在 AI Core 上的高效分配和调度(专门服务于 AI Core 和 AI CPU,不承担任何其它的工作); ARM CPU:控制芯片整体运行; DVPP:数字视觉预处理子系统,完成图像视频编解码; Cache & Buffer。 2.1.2 Ascend 910 架构 AI Core:32 个,上下各 16 ...
2025-08-12
qwen3_vl_image_vs_video_inference
Qwen3-VL:图像推理与视频推理的区别1. 输入预处理图像 输入为静态图片,经过 image_processor 处理 使用 Conv3dLayer(temporal_patch_size=2)对图片做 patch 嵌入,但 t=1(单帧) 输出 pixel_values(shape: [num_patches, flattened_patch_size]) grid 信息保存在 image_grid_thw,每条记录为 [1, H, W] 视频 输入为视频帧序列,经过 video_processor 处理 先均匀采样若干帧(如 16 帧),再按 temporal_patch_size=2 分组打包成时序 patch 输出 pixel_values_videos(shape: [num_patches, flattened_patch_size]) grid 信息保存在 video_grid_thw,每条记录为 [T, H, W],T≥1 表示时序维度 2. 输入格式差异 维度 图像 视频 pixel values key pixel_va...
2025-08-04
Qwen2.5-VL
Qwen2.5-VL12Layer:- Qwen 方法 = vLLM 算子 LayersQwen2_5_VisionTransformer: patch_embed = Qwen2_5_VisionPatchEmbed rotary_pos_emb = Qwen2_5_VisionRotaryEmbedding blocks = Qwen2_5_VisionBlock * layer_num merger = Qwen2_5_VisionPatchMerger Qwen2_5_VisionPatchEmbed: proj = nn.Conv3d Qwen2_5_VisionRotaryEmbedding: Qwen2_5_VisionBlock: norm1 = RMSNorm attn = Qwen2_5_VisionAttention norm2 = RMSNorm mlp = Qwen2_5_VisionMLP Qwen2_5_VisionAttention: ...