北大林宙辰团队全新混合序列建模架构MixCon:性能远超Mamba
发布时间:2024-10-15 18:30
发布者:网络
浏览次数:☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
易标AI
告别低效手工,迎接AI标书新时代!3分钟智能生成,行业唯一具备查重功能,自动避雷废标项
135 查看详情
![]()

论文标题:MixCon: A Hybrid Architecture for Efficient and Adaptive Sequence Modeling 论文地址:https://zhouchenlin.github.io/Publications/2025-ECAI-MixCon.pdf
降低到
或
,但在处理长序列时可能会面临性能下降和计算开销增加的问题。
和
,其中
、
和
分别为时间步
的状态、输入和输出,
和
是非线性函数,可由神经网络近似。
,其中
和
是可学习参数矩阵。
,
是可学习参数矩阵。
,以及引入延迟状态
和动态状态缩放机制
。
来捕捉长程依赖和适应序列动态变化。
和期望输出
之间的跟踪误差
。
通过
更新,其中
是跟踪误差向量
的 2 范数,
是学习率。
的非线性部分和观察函数
,通过端到端训练确定最佳参数。
用 SwiGLU(基于 Swish 和 GLU 的混合激活函数)近似,其公式为
。
和观察噪声
,
,增强模型对扰动的适应性。







on 处理长上下文能力,使用 L - Eval 中最长上下文数据集的五个数据集,以少样本格式(每个实验用三个例子)进行实验。


以上就是北大林宙辰团队全新混合序列建模架构MixCon:性能远超Mamba的详细内容,更多请关注其它相关文章!
# 工程
# 混合序列建模架构
# mixcon
# git
# 邮箱
# 高可扩展性
# llama
# type
# 北大
# 所示
# 令牌
# 长程
# 如图
# 自适应
# 更大
# 日韩
# 新能源
# 可直接
# 流量网站怎么接广告推广
# 蚌埠seo xiaoyan
# 成都商城网站建设优化
# 怎么样在国外网站做推广赚钱呢
# 网站建设的商业阶段
# seo 伪原创
# 大姚网站推广
# seo1短视频首页
# 华富电商网站建设
# 电商网站建设怎么建设好





易标AI