一枚NLPer小菜鸡

大模型学习总结

浅层对齐假说

LIMA(Less Is More for Alignment) 即浅层对齐假说,即一 个模型的知识和能力几乎完全是在预训练中学习的,而对齐则是教会它与用户交互时如何选择子分布。

大模型参数估计

avtar

avtar

avtar

avtar

avtar

avtar

avtar

avtar

avtar

register_parameter

注册一个可训练的函数

register_buffer

模型训练:
数据并行(data parallel), 模型及数据独立分发给各GPU,各自计算梯度,汇总到其中一个GPU平均后优化,梯度传播到其它GPU优化。

模型并行,张量并行

DDP(data distributed parallel)

O(∩_∩)O哈哈~