大模型基础知识

发表于2025-11-17|更新于2026-06-10|LLM

|浏览量:

大模型基础知识

Tokenizer

token：最小语义单元。多模态模型：图像等 -> token，再与文本的 token 进行拼接。

tokenizer：分词器。输入文本 -> token_id（input_id）。

input ids：token 的索引，是整数向量。

tokenizer.decode()：将 input_ids 转化为对应的 embedding 向量。

模型文件解析：

Transformer

Transformer = Encoder + Decoder

Encoder：适合理解型任务；
Decoder：适合生成型任务。

Self-Attention：

Mask-Attention：

>>> import torch
>>> seq_len = 4
>>> qkt = torch.randn([seq_len, seq_len])
>>> qkt
tensor([[ 0.0697,  0.7932, -0.1177,  0.0812],
        [ 0.3271, -1.1111, -0.8723,  1.2537],
        [ 1.7847, -0.2803,  1.3621, -1.1000],
        [ 0.5083,  0.5289,  1.9308, -0.0894]])
>>> masked = torch.tril(torch.ones([seq_len, seq_len])) # 返回矩阵的下三角部分
>>> masked
tensor([[1., 0., 0., 0.],
        [1., 1., 0., 0.],
        [1., 1., 1., 0.],
        [1., 1., 1., 1.]])
>>> qkt1 = qkt.masked_fill(masked == 0, float('-inf'))
>>> qkt1
tensor([[ 0.0697,    -inf,    -inf,    -inf],
        [ 0.3271, -1.1111,    -inf,    -inf],
        [ 1.7847, -0.2803,  1.3621,    -inf],
        [ 0.5083,  0.5289,  1.9308, -0.0894]])

参考：masked-attention 算法详解

MHA（Multi-Head Attention，多头注意力）

MLP（又叫 FFN）：升维 -> 激活 -> 降维。MLP 占了 Transformer 中最多的参数量和计算量。

激活：增强模型的非线性表达能力；
升维：更宽的线性层可以增强模型的表达能力。

Embedding：单词 embedding（不包含时序信息）+ 位置 embedding（逐点相加）。

Llama 模型结构

FFN_SiLU：

RoPE 位置编码：

大模型推理技术综述

张量并行

集合通信

并行技术

文章作者: xhj

文章链接: https://hzhzxfs.github.io/2025/11/17/%E5%A4%A7%E6%A8%A1%E5%9E%8B%E5%9F%BA%E7%A1%80%E7%9F%A5%E8%AF%86/

版权声明: 本博客所有文章除特别声明外，均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 xhj的博客！

相关推荐

大模型 LoRA 微调的数学原理

大模型 LoRA 微调的数学原理一、概述LoRA（Low-Rank Adaptation，低秩适配器）是目前非常热门的大模型微调技术之一，网上已经有许多关于其原理的分析和讲解，本文将着重从 LoRA 背后的数学原理进行解读。二、背景介绍2.1 基本概念大模型微调（Fine-tuning）：基于已经训练好的预训练模型，针对特定的下游任务，在特定领域的数据集上进行二次训练，以提升模型在特定任务上的表现。全量微调：在下游任务的训练中，对预训练模型的每一个参数都做更新（训练代价昂贵）；局部微调：冻结（不更新）预训练模型的权重，只对部分增量权重进行训练，从而有效降低训练的代价（实用性更高）。 2.2 研究现状在 LoRA 微调技术出现之前，现有的大模型微调技术存在以下缺点： Adapter Tuning：在模型中添加额外的 Adapter 层，并只针对这些 Adapter 的权重进行训练。这将导致模型整体的层数变深，从而使模型的训练/推理耗时增加（因为新增的 Adapter 层与模型中的其它层是串行的，无法充分利用硬件能力进行并行计算）； Prefix Tuning：...

1234apply_token_matchesapply_text_matchesTypeError: can't convert npu:0 device type tensor to numpy. Use Tensor.cpu() to copy the tensor to host memory first.

分布式系统伸缩策略解析

好的，这是一个非常核心的分布式系统与云计算概念。我们来详细解析“水平伸缩”和“垂直伸缩”的含义、区别以及各自的应用场景。 1. 核心含义水平伸缩含义：通过增加或减少实例的数量来应对负载变化。这通常意味着在负载高时，向资源池中添加更多的服务器/节点；在负载低时，移除多余的服务器/节点。形象比喻：一个餐厅客人变多，老板不是让同一个服务员干得更快（垂直伸缩），而是雇佣更多的服务员来分担工作。技术实现：通常依赖于负载均衡器，将进入的请求流量分发到后端多个无状态的服务实例上。在云环境中，这通常通过自动伸缩组来实现。垂直伸缩含义：通过升级或降级单个实例的资源配置（如CPU、内存、磁盘I/O）来应对负载变化。这通常意味着在负载高时，为服务器更换更强大的CPU或增加更多内存；在负载低时，降低配置以节省成本。形象比喻：同一个服务员，通过让他参加培训、喝咖啡、使用更先进的工具，从而提升他个人的服务速度和能力。技术实现：在物理机时代，这需要手动更换硬件。在云时代和虚拟化环境中，这通常可以通过改变虚拟机实例的规格（例如，AWS 从 t3.small 升级到...

vLLM 算力多样性｜Platform 插件与 CustomOp

vLLM 算力多样性｜Platform 插件与 CustomOp一、引言随着 vLLM 逐渐成为生产级场景下大模型推理的通用解决方案之一，期望 vLLM 支持各式各样算力底座的需求日趋强烈。目前，在 vLLM 的官方仓库中维护着 NVIDIA GPU、AMD GPU 以及 Google TPU 等多家芯片厂商的代码，但除此之外，还有更多的 AI 芯片是通过“硬件插件化机制”来支持自家算力的。所有不在 vLLM 官方仓库中支持的硬件，都被统称为 OOT（Out Of Tree）Device，包括：官方插件（指存在于 vllm-project 官方项目下的插件）：vllm-ascend（华为昇腾 NPU）、vllm-spyre、vllm-gaudi（Intel Gaudi）、vllm-neuron（AWS Neuron）、vllm-metal（Apple Silicon）等；非官方插件：vLLM-metax（沐曦 GPU）、vLLM-Kunlun（百度昆仑芯 XPU）等。本文将深入介绍 vLLM 硬件插件化系统的原理，以及如何通过 CustomOp 完成自定义算子的注册与...

一、引言Guided Decoding，又叫 Structured Output，是大模型推理领域中非常重要的一个特性，主要用于引导大模型输出符合某种特定格式（如：SQL、Json）的结果，以便更好地将大模型落地到具体的应用场景中。在我的上一篇文章中，简要地介绍了 Guided Decoding 的原理，并详细分析了 vLLM 中相关代码的实现（V0），文章链接：vLLM 学习笔记｜Guided Decoding。自从 vLLM v0.8.x 之后，V1 Engine 将作为 vLLM 启动时的默认选项。关于 V1 Engine 的系统设计以及具体的优化点，我将会在之后逐步梳理并分享出来（如果有空的话）。而在本文中，我将针对 V1 Engine，分享 Structured Output 模块的整体设计与具体实现。二、V1 Engine 整体架构在介绍 Structured Output 模块的设计之前，让我们先来看下 vLLM V1 Engine 的整体架构。在 V1 中，vLLM 将不同类型的 CPU 密集型操作拆分到了两个相互独立的进程中，以便能够异步执行不同的 CPU...

分布式系统控制面与数据面解析

好的，这是一个非常核心的分布式系统设计概念。我们可以用一个生动的比喻来开始，然后深入技术细节。核心比喻：空中交通管制系统控制面就像是空中的交通管制塔和调度员。他们不直接开飞机（处理乘客和货物）。他们的工作是：规划航线、指挥飞机起飞和降落、监控所有飞机的状态和位置、处理紧急情况、分配跑道和空域。他们做出决策，确保整个系统安全、有序地运行。数据面就像是飞机本身和跑道。它们负责实际的运输工作：搭载乘客、装载货物、在指定的航线上飞行。它们不决定去哪、怎么飞，而是忠实地执行控制塔发出的指令，专注于高效、安全地完成“运输”这个核心任务。详细解释1. 控制面控制面是系统的大脑和神经系统，负责管理、协调和决策。它不直接处理用户的业务请求，而是确保数据面能够正确、高效地处理这些请求。主要职责：系统配置与管理：管理网络配置、服务发现、负载均衡策略、安全策略（如防火墙规则）等。状态监控与收集：收集整个系统中所有组件（数据面节点）的健康状态、性能指标（如CPU、内存、流量）、日志和拓扑信息。路由决策：决定数据包的转发路径。例如，在微服务网络中，控制面决定一个...