16
02
2024
手把手教你,从零开始实现一个稀疏混合专家架构语言模型(MoE)
本文介绍了实现一个稀疏混合专家语言模型(MoE)的方法,详细解释了模型的实施过程,包括采用稀疏混合专家取代传统的前馈神经网络,实现top-k门控和带噪声的top-k门控,以及采用KaimingHe初始...
12
10
2023
手把手教你剪「羊驼」,陈丹琦团队提出LLM-Shearing大模型剪枝法
给Llama2(羊驼)大模型剪一剪驼毛,会有怎样的效果呢?今天普林斯顿大学陈丹琦团队提出了一种名为LLM-Shearing的大模型剪枝法,可以用很小的计算量和成本实现优于同等规模模型的性能。自大型语言...




