
7B、14B、70B 模型到底需要多少显存?一篇算清楚
2026.06.10大模型显存占用怎么算:从参数量、KV Cache 到训练开销
Posts collected under this category.

大模型显存占用怎么算:从参数量、KV Cache 到训练开销

记录第一次大模型微调

自己做的第一个NLP项目实战,主要加强对Transformer的理解及应用

精读论文Attention is all you need提出的自注意力机制以及Transformer架构.

Understanding Diffusion Models A Unified Perspective -论文笔记