正文
如何估算LLM占用显存数?https://blog.csdn.net/Android23333/article/details/142696313
目前,精度主要有以下几种:
• 4 Bytes: FP32 / float32 / 32-bit
• 2 Bytes: FP16 / float16 / bfloat16 / 16-bit
• 1 Byte: int8 / 8-bit
• 0.5 Bytes: int4 / 4-bit
经验法则
•** 推理: 参数量 * 精度。**
例如,假设模型都是16-bit权重发布的,也就是说一个参数消耗16-bit或2 Bytes的内存,模型的参数量为70B,基于上述经验法则,推理最低内存需要70B * 2Bytes = 140G。
• 训练: 4 - 6 倍的推理资源。