推理显存计算

推理所需显存 = 模型参数部分 + 激活参数部分 + KVCache 部分

  • 模型参数部分 = 模型参数量 × 精度系数
  • 激活参数部分 = 激活参数量 × 精度系数
  • KVCache 部分 = 并发数 ×(输入 Token 数 + 输出 Token 数)× 2(K 和 V)× 层数 × hidden_size × 精度系数

参考资料:模型显存计算逻辑