文件名 估算显存占用.md

估算显存占用

本文目录

正文

如何估算LLM占用显存数?https://blog.csdn.net/Android23333/article/details/142696313

目前,精度主要有以下几种:

• 4 Bytes: FP32 / float32 / 32-bit

• 2 Bytes: FP16 / float16 / bfloat16 / 16-bit

• 1 Byte: int8 / 8-bit

• 0.5 Bytes: int4 / 4-bit

经验法则

•** 推理: 参数量 * 精度。**

例如,假设模型都是16-bit权重发布的,也就是说一个参数消耗16-bit或2 Bytes的内存,模型的参数量为70B,基于上述经验法则,推理最低内存需要70B * 2Bytes = 140G。

• 训练: 4 - 6 倍的推理资源。

训练阶段所需的资源,除了模型权重KV Cache激活内存之外,还需要存储优化器梯度状态,因此,训练比推理需要更多的资源。