Qwen2-VL报错

2025-11-17

大模型基础知识

大模型基础知识Tokenizertoken：最小语义单元。多模态模型：图像等 -> token，再与文本的 token 进行拼接。 tokenizer：分词器。输入文本 -> token_id（input_id）。 input ids：token 的索引，是整数向量。 tokenizer.decode()：将 input_ids 转化为对应的 embedding 向量。模型文件解析： TransformerTransformer = Encoder + Decoder Encoder：适合理解型任务； Decoder：适合生成型任务。 Self-Attention： Mask-Attention： 1234567891011121314151617181920>>> import torch>>> seq_len = 4>>> qkt = torch.randn([seq_len, seq_len])>>> qkttensor([[ 0.0697, 0.7932, -0.1...

2025-10-05

vLLM MEMO

vLLM MEMO开发常用123456789101112131415161718192021222324# init envcd ~/github/vllm/source .venv/bin/activateexport VLLM_USE_MODELSCOPE=Falseexport HF_ENDPOINT="https://hf-mirror.com"# export VLLM_USE_MODELSCOPE=Truepre-commit install# def run_qwen2_5_vl# /home/sss/.cache/modelscope/hub/models/Qwen/Qwen2.5-VL-7B-Instructpython examples/offline_inference/vision_language.py -m qwen2_5_vl# def run_qwen3_vl# /home/sss/.cache/modelscope/hub/models/Qwen/Qwen3-VL-4B-Instruct# /home/sss/.cache/m...

2025-11-06

SHM

SHMShared Memory = 多个进程/设备可以“直接访问同一块内存”的机制。普通进程通信（非 SHM）：进程 A → 拷贝 → 内核 → 拷贝 → 进程 B（数据被复制多次）； Shared Memory：进程 A ↔ 同一块内存 ↔ 进程 B（没有中间 copy）。 SHM 在不同层的含义：操作系统：POSIX / System V SHM。OS 分配一块内存，映射到多个进程的虚拟地址空间。特点：零拷贝（进程间）、需要同步机制（锁、信号量）。比如：from multiprocessing import shared_memory； GPU / CUDA：GPU SM 内部的片上共享内存，给 thread block 用。特点：超快（比 global memory 快很多）。比如：__shared__ float buf[256]；容器 / Docker：是一个 tmpfs（内存文件系统），用来做进程间共享内存。比如 docker run --shm-size=8g，对应 /dev/shm。在 vLLM ...

2025-10-12

大模型 LoRA 微调的数学原理

大模型 LoRA 微调的数学原理一、概述LoRA（Low-Rank Adaptation，低秩适配器）是目前非常热门的大模型微调技术之一，网上已经有许多关于其原理的分析和讲解，本文将着重从 LoRA 背后的数学原理进行解读。二、背景介绍2.1 基本概念大模型微调（Fine-tuning）：基于已经训练好的预训练模型，针对特定的下游任务，在特定领域的数据集上进行二次训练，以提升模型在特定任务上的表现。全量微调：在下游任务的训练中，对预训练模型的每一个参数都做更新（训练代价昂贵）；局部微调：冻结（不更新）预训练模型的权重，只对部分增量权重进行训练，从而有效降低训练的代价（实用性更高）。 2.2 研究现状在 LoRA 微调技术出现之前，现有的大模型微调技术存在以下缺点： Adapter Tuning：在模型中添加额外的 Adapter 层，并只针对这些 Adapter 的权重进行训练。这将导致模型整体的层数变深，从而使模型的训练/推理耗时增加（因为新增的 Adapter 层与模型中的其它层是串行的，无法充分利用硬件能力进行并行计算）； Prefix Tuning：...

2025-08-08

Qwen3-VL-8B在910B4推理调用超过上下文长度的图片报错

12345678# localscp -P 8333 images.zip root@139.9.155.20:/media/# remotesudo apt updatesudo apt install -y unzipcd /mediaunzip images.zip 准备图片： 12345678910111213141516#!/usr/bin/env bashimage_base64=$(base64 -w 0 /media/b0.jpg)cat > /media/image_request.json <<EOF{ "model": "/root/.cache/modelscope/hub/models/Qwen/Qwen3-VL-8B-Instruct", "messages": [ {"role": "system", "content": "You are a helpfu...

2025-12-03

分布式系统伸缩策略解析

好的，这是一个非常核心的分布式系统与云计算概念。我们来详细解析“水平伸缩”和“垂直伸缩”的含义、区别以及各自的应用场景。 1. 核心含义水平伸缩含义：通过增加或减少实例的数量来应对负载变化。这通常意味着在负载高时，向资源池中添加更多的服务器/节点；在负载低时，移除多余的服务器/节点。形象比喻：一个餐厅客人变多，老板不是让同一个服务员干得更快（垂直伸缩），而是雇佣更多的服务员来分担工作。技术实现：通常依赖于负载均衡器，将进入的请求流量分发到后端多个无状态的服务实例上。在云环境中，这通常通过自动伸缩组来实现。垂直伸缩含义：通过升级或降级单个实例的资源配置（如CPU、内存、磁盘I/O）来应对负载变化。这通常意味着在负载高时，为服务器更换更强大的CPU或增加更多内存；在负载低时，降低配置以节省成本。形象比喻：同一个服务员，通过让他参加培训、喝咖啡、使用更先进的工具，从而提升他个人的服务速度和能力。技术实现：在物理机时代，这需要手动更换硬件。在云时代和虚拟化环境中，这通常可以通过改变虚拟机实例的规格（例如，AWS 从 t3.small 升级到...