Posts connected by this tag.
大模型显存占用怎么算:从参数量、KV Cache 到训练开销
自己做的第一个NLP项目实战,主要加强对Transformer的理解及应用
精读论文Attention is all you need提出的自注意力机制以及Transformer架构.