likes
comments
collection
share

UC伯克利震撼推出“世界大模型”:一次性处理百万token,精准解读长视频

作者站长头像
站长
· 阅读数 2

前言

在人工智能领域,解读和理解视频内容一直是一个巨大挑战。传统的模型虽然能够处理文本和静态图像,但在理解长视频的动态过程中,往往力不从心。近期,UC伯克利研究团队推出的“世界大模型”(Large World Model,简称LWM)为语言模型理解物理世界铺平了新的道路,这一里程碑式的进展令人震撼。

模型概述

“世界大模型”通过采用先进的RingAttention技术,成功地对长序列进行了可扩展训练,从而实现了在长视频和语言序列上训练拥有极大上下文尺寸的transformers模型。LWM模型的独特之处在于其能够一次性处理高达100万个token。为了实现这一点,研究团队采用多种策略:使用书籍资料将上下文扩展到 100 万个 token,然后在长多模态序列上进行联合训练,包括文本 - 图像、文本 - 视频数据和书籍资料。

UC伯克利震撼推出“世界大模型”:一次性处理百万token,精准解读长视频

这一特性使其能够精准解读长达1小时的YouTube视频内容,无论是解析视频中的动态场景,还是回答与视频内容相关的复杂问题,LWM都展现出了卓越的性能。比如在示例中,当用户询问「那个穿着霸王龙服装的人骑的是什么车」?GPT-4V 不能提供支持,Gemini Pro Vision 回答错误。只有 LWM 给了「那个穿着霸王龙服装的人骑的是摩托车」正确答案。显示出 LWM 在长视频理解中的优势。

UC伯克利震撼推出“世界大模型”:一次性处理百万token,精准解读长视频

技术突破

LWM的技术突破主要体现在以下几个方面:

  1. 长序列处理能力:通过RingAttention技术,LWM突破了传统模型在处理长序列时的内存限制和计算复杂性,实现了对数百万长度token序列的有效训练。
  2. 多模态序列训练:LWM能够处理包含文本、图像和视频的多模态序列,这一能力极大地丰富了模型的应用场景,提高了模型的理解和生成能力。
  3. 开源共享:LWM模型及其相关的训练代码、数据集和评估工具全面开源,为AI研究社区提供了宝贵的资源,促进了技术的共享和发展。

模型性能

LWM 与谷歌的 Gemini Pro 和 OpenAI 的 GPT-4 进行了实验比较,实验结果表明 LWM 模型在检索方面能够媲美 GPT-4。

UC伯克利震撼推出“世界大模型”:一次性处理百万token,精准解读长视频

还在 MT-Bench 上评估了模型的对话能力。下图显示了模型获得的 MT-Bench 分数, 说明了模型的对话能力与事实检索能力的关系。

UC伯克利震撼推出“世界大模型”:一次性处理百万token,精准解读长视频

在准确性方面,LWM 在上下文窗口为 1M 时优于 GPT-4V 和 Gemini Pro。

UC伯克利震撼推出“世界大模型”:一次性处理百万token,精准解读长视频

UC伯克利震撼推出“世界大模型”:一次性处理百万token,精准解读长视频

应用前景

LWM模型在视频理解、生成以及与视频相关的问答等方面展现了卓越的能力,这不仅为视频内容创作和分析提供了强大的工具,也为自动驾驶、远程监控等领域提供了新的解决方案。随着模型性能的进一步提升和应用场景的不断拓展,LWM有望在未来成为理解复杂物理世界的关键技术。

结语

UC伯克利的“世界大模型”代表了AI在理解复杂视频内容方面的重大进步,其一次性处理百万token的能力开启了新的研究和应用可能。随着技术的不断完善和应用的深入,LWM预计将在AI领域掀起新的技术革命。

模型下载

Huggingface模型下载

huggingface.co/LargeWorldM…

AI快站模型免费加速下载

aifasthub.com/models/Larg…