最强全模态模型Ola-7B横扫图像、视频、音频主流榜单，腾讯混元Research&清华&NTU联手打造_行业动态

最强全模态模型Ola-7B横扫图像、视频、音频主流榜单，腾讯混元Research&清华&NTU联手打造

发布时间：2025-02-18 14:54

发布者：网络

浏览次数：

ola：一款性能卓越的全模态语言模型，超越现有同类模型！

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

AIxiv专栏持续报道全球顶尖AI研究成果，如果您有优秀工作，欢迎投稿或联系报道 (liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com)。

Ola模型，由腾讯混元Research、清华大学智能视觉实验室和南洋理工大学S-Lab联合研发，在图像、视频和音频理解方面展现出强大的竞争力。论文共同一作：清华大学刘祖炎博士、南洋理工大学董宇昊博士；通讯作者：腾讯饶永铭高级研究员、清华大学鲁继文教授。

GPT-4o的出现激发了全模态模型的研究热潮。虽然已有开源替代方案，但性能仍逊色于专用单模态模型。Ola模型的核心创新在于其渐进式模态对齐策略，它逐步扩展模型支持的模态，先从图像和文本入手，再逐步加入语音和视频数据，有效降低了训练成本并提升了模型性能。

Ola模型在多个基准测试中显著超越了Qwen2.5-VL、InternVL2.5等主流模型。作为一款仅含70亿参数的全模态模型，它在图像、视频和音频理解方面均取得了突破性进展：

图像理解: 在OpenCompass基准测试中，其在8个数据集上的平均准确率达到72.6%，在所有参数量小于300亿的模型中排名第一，超越GPT-4o、InternVL2.5等。
视频理解: 在VideoMME测试中，Ola在输入视频和音频的情况下，准确率达到68.4%，超越LLaVA-Video、VideoLLaMA3等。
音频理解: 在语音识别和对话评估等任务中，Ola的表现也接近最先进的音频理解模型。

Ola模型、代码和训练数据均已开源，旨在推动全模态理解领域的研究发展。