19
12
2025
铭心の博客 - No Game No Life - 铭心の博客 - No Game No Life
No Game No Life...
24
01
2025
阿里云通义大模型新技术:MoE模型训练专家平衡的关键细节
阿里云通义千问团队在最新论文中揭示了混合专家模型(MoE)训练中的一个关键问题,并提出了一种创新的解决方案。该问题在于现有MoE训练框架普遍采用局部负载均衡损失(LBL),导致专家激活不均衡,限制了模...
08
08
2024
PRO | 为什么基于 MoE 的大模型更值得关注?
2023年,几乎AI的每个领域都在以前所未有的速度进化,同时,AI也在不断地推动着具身智能、自动驾驶等关键赛道的技术边界。多模态趋势下,Transformer作为AI大模型主流架构的局面是否会撼动?为...
06
08
2024
算法、系统和应用,三个视角全面读懂混合专家(MoE)
LLM很强,而为了实现LLM的可持续扩展,有必要找到并实现能提升其效率的方法,混合专家(MoE)就是这类方法的一大重要成员。最近,各家科技公司提出的新一代大模型不约而同地正在使用混合专家(Mixtur...




