手把手教你_第43页

2024

本文介绍了实现一个稀疏混合专家语言模型（MoE）的方法，详细解释了模型的实施过程，包括采用稀疏混合专家取代传统的前馈神经网络，实现top-k门控和带噪声的top-k门控，以及采用KaimingHe初始...

Read&More

2023

给Llama2（羊驼）大模型剪一剪驼毛，会有怎样的效果呢？今天普林斯顿大学陈丹琦团队提出了一种名为LLM-Shearing的大模型剪枝法，可以用很小的计算量和成本实现优于同等规模模型的性能。自大型语言...

Read&More