SHM

发表于2025-11-06|更新于2026-06-10|LLM

|浏览量:

SHM

Shared Memory = 多个进程/设备可以“直接访问同一块内存”的机制。

普通进程通信（非 SHM）：进程 A → 拷贝 → 内核 → 拷贝 → 进程 B（数据被复制多次）；
Shared Memory：进程 A ↔ 同一块内存 ↔ 进程 B（没有中间 copy）。

SHM 在不同层的含义：

操作系统：POSIX / System V SHM。OS 分配一块内存，映射到多个进程的虚拟地址空间。特点：零拷贝（进程间）、需要同步机制（锁、信号量）。比如：from multiprocessing import shared_memory；
GPU / CUDA：GPU SM 内部的片上共享内存，给 thread block 用。特点：超快（比 global memory 快很多）。比如：__shared__ float buf[256]；
容器 / Docker：是一个 tmpfs（内存文件系统），用来做进程间共享内存。比如 docker run --shm-size=8g，对应 /dev/shm。

在 vLLM / Mooncake 里的 SHM：跨进程 / 跨 worker 的共享内存，用来避免 KV cache 或 metadata 的复制。

如果在同一台机器上：KV cache → 放在 shared memory。Prefill worker 写，Decode worker 直接读。

	SHM	Mooncake
范围	单机	跨机器
机制	共享内存映射	RDMA
地址	虚拟地址映射	物理地址 + rkey
拷贝	0 copy	0 copy
复杂度	低	高

SHM 为什么快？

避免数据复制；
避免内核参与。

因此：延迟低、带宽高、CPU 占用低。

SHM 的代价？

需要同步：两个进程同时写 → 数据竞争；
生命周期管理复杂：谁分配？谁释放？
内存不可随意移动：地址被多个进程引用，不能 realloc / compact。

总结：SHM / RDMA / Mooncake 本质都是让“多个执行单元共享同一块物理数据”，而不是复制数据。

文章作者: xhj

文章链接: https://hzhzxfs.github.io/2025/11/06/SHM/

版权声明: 本博客所有文章除特别声明外，均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 xhj的博客！

相关推荐

大模型基础知识

大模型基础知识Tokenizertoken：最小语义单元。多模态模型：图像等 -> token，再与文本的 token 进行拼接。 tokenizer：分词器。输入文本 -> token_id（input_id）。 input ids：token 的索引，是整数向量。 tokenizer.decode()：将 input_ids 转化为对应的 embedding 向量。模型文件解析： TransformerTransformer = Encoder + Decoder Encoder：适合理解型任务； Decoder：适合生成型任务。 Self-Attention： Mask-Attention： 1234567891011121314151617181920>>> import torch>>> seq_len = 4>>> qkt = torch.randn([seq_len, seq_len])>>> qkttensor([[ 0.0697, 0.7932, -0.1...

Qwen2.5-VL 性能测试环境设置1234567# vllmcd /workspace/vllmgit reset --hard 2918c1b49c88c29783c86f78d2c4221cb9622379# vllm-ascend: maincd /workspace/vllm-ascendpip install -r benchmarks/requirements-bench.txt Run: 1bash benchmarks/scripts/run-performance-benchmarks.sh Benchmark 结果Before (未移除任何 layer 之前): 12345678910111213141516171819202122232425============ Serving Benchmark Result ============Successful requests: 200 Failed requests: 0 Reque...

TorchAir学习笔记

TorchAir 学习笔记Eager Mode（单算子模式）：优点：立即执行并返回结果；易用、可调试；动态构建计算图（图的形状和大小可以在运行时改变）；缺点：可能存在性能问题（host bound），每一次 OP 调用触发一次 python/C++ 相关处理（torch/torch-npu/CANN）。 PyTorch 图模式演进： torch.jit -> lazy tensor -> TorchDynamo（PyTorch 2.0 正式集成，对外提供 torch.compile API，不光提供了成图能力，也同时发布了 Inductor 代码生成后端） torch.compile 底层原理：前端：图定义：torch fx 定义了一种图结构表达，并且能够进行 python 代码生成；图生成：TorchDynamo 解析 python 编译后的 PyCodeObject 字节码，并生成一张 fx 图（传给用户定义的 Compiler）；后端：图编译、图执行：TorchAir 是 torch.compile 里的...

Qwen2.5-VL 差异对比Qwen2_5_VLForConditionalGeneration__init__()123456789101112131415161718192021222324252627282930# vllmself.use_data_parallel = multimodal_config.mm_encoder_tp_mode == "data"if multimodal_config.get_limit_per_prompt( "image") or multimodal_config.get_limit_per_prompt("video"): attn_backend_override = ( multimodal_config.mm_encoder_attn_backend if multimodal_config is not None else None ) self.visual = Qwen2_5_VisionTr...

Qwen3-VL-8B推理结果为空

123456789101112131415161718192021222324252627python -m vllm.entrypoints.openai.api_server \--model /root/.cache/modelscope/hub/models/Qwen/Qwen3-VL-8B-Instruct \--dtype bfloat16 \--gpu-memory-utilization 0.9 \--max-model-len 8192 \--max_num_batched_tokens 8192--host 0.0.0.0 \--port 8000 \--compilation-config '{"cudagraph_capture_sizes": [1, 2, 4, 8, 16, 32, 64, 128, 256, 512]}'curl -X POST http://localhost:8000/v1/chat/completions \ -H "Content-Type: app...

Qwen2-VL精度问题

Qwen2-VL 精度问题12345678------------------------------ Captured log call -------------------------------WARNING transformers.models.auto.image_processing_auto:logging.py:328 The image processor of type `Qwen2VLImageProcessor` is now loaded as a fast processor by default, even if the model checkpoint was saved with a slow processor. This is a breaking change and may produce slightly different outputs. To continue using the slow processor, instantiate this class with `use_fast=False`. Note that t...