UC伯克利震撼推出“世界大模型”:一次性处理百万token，精准解读长视频

站长

2024年03月23日 09:41 · 阅读数 110

前言

在人工智能领域，解读和理解视频内容一直是一个巨大挑战。传统的模型虽然能够处理文本和静态图像，但在理解长视频的动态过程中，往往力不从心。近期，UC伯克利研究团队推出的“世界大模型”（Large World Model，简称LWM）为语言模型理解物理世界铺平了新的道路，这一里程碑式的进展令人震撼。

模型概述

“世界大模型”通过采用先进的RingAttention技术，成功地对长序列进行了可扩展训练，从而实现了在长视频和语言序列上训练拥有极大上下文尺寸的transformers模型。LWM模型的独特之处在于其能够一次性处理高达100万个token。为了实现这一点，研究团队采用多种策略：使用书籍资料将上下文扩展到 100 万个 token，然后在长多模态序列上进行联合训练，包括文本 - 图像、文本 - 视频数据和书籍资料。

Huggingface模型下载： huggingface.co/LargeWorldM…
AI 快站模型免费加速下载： *aifasthub.com/models/Larg…

UC伯克利震撼推出“世界大模型”:一次性处理百万token，精准解读长视频

这一特性使其能够精准解读长达1小时的YouTube视频内容，无论是解析视频中的动态场景，还是回答与视频内容相关的复杂问题，LWM都展现出了卓越的性能。比如在示例中，当用户询问「那个穿着霸王龙服装的人骑的是什么车」？GPT-4V 不能提供支持，Gemini Pro Vision 回答错误。只有 LWM 给了「那个穿着霸王龙服装的人骑的是摩托车」正确答案。显示出 LWM 在长视频理解中的优势。

UC伯克利震撼推出“世界大模型”:一次性处理百万token，精准解读长视频