likes
comments
collection
share

面壁智能与清华大学开源超强端侧多模态大模型MiniCPM 2.0,中文OCR超GPT-4V,参数仅2B,手机秒变AI神器

作者站长头像
站长
· 阅读数 53

前言

优秀的端侧模型系列面壁 MiniCPM 上新!一口气带来:

  • 端侧多模态模型 MiniCPM-V 2.0:OCR 能力显著增强、甚至部分能力比肩 Gemini Pro;
  • 适配更多端侧场景的基座模型 MiniCPM-1.2B:性能超越 Llama2-13B、推理速度达到人类语速近 25 倍;
  • 最小的 128K 长文本模型 MiniCPM-2B-128K
  • 性能进一步增强的 MoE 架构模型 MiniCPM-MoE-8x2B

端侧最强的多模态模型

多模态能力已经成为当下大模型的核心竞争力之一。作为智能终端设备频繁使用的影像视觉处理功能,对端侧部署的AI模型提出了更高的多模态识别与推理能力要求。

这次,面壁智能团队发布的MiniCPM-V 2.0不仅带来端侧最强的多模态通用能力,还展现了极为惊艳的OCR表现。通过自主研发的高清图像解码技术,突破了传统局限,让精准识别富有细节的街景、长图成为可能。

甚至,它还能识读2300年前的清华简上难以辨别的古老字迹,凭借卓越的OCR能力,为识读古文字打开了大门。比如,它可以准确找到竹简中最短的竹简,并识别出上面的字迹,连复杂的楚文字都能被正确解读。

面壁智能与清华大学开源超强端侧多模态大模型MiniCPM 2.0,中文OCR超GPT-4V,参数仅2B,手机秒变AI神器

在OCR综合能力方面,MiniCPM-V 2.0以"小钢炮"系列的"以小博大"传统,在权威OCRBench榜单上刷新了开源模型的最佳成绩。在场景图片文字识别的TextVQA榜单上,它越级超越了全系13B级通用模型,部分能力甚至媲美代表性的Gemini Pro。

面壁智能与清华大学开源超强端侧多模态大模型MiniCPM 2.0,中文OCR超GPT-4V,参数仅2B,手机秒变AI神器

新一代MiniCPM-V 2.0还加速解锁了过去难以识别的高清图像信息,如街景、长图等典型场景。传统模型只能处理固定尺寸的小图,对大像素或不规则图片的强制压缩,导致原图中大量信息丢失,难以准确识别。

得益于自主研发的高清图像解码技术,MiniCPM-V 2.0可处理高达180万像素的大图,甚至1:9超宽长图,都能进行高效编码和无损识别。

面壁智能与清华大学开源超强端侧多模态大模型MiniCPM 2.0,中文OCR超GPT-4V,参数仅2B,手机秒变AI神器

在中文OCR性能方面,MiniCPM-V 2.0也明显超越了GPT-4V。比如对同一张街景图,MiniCPM-V 2.0能准确识别出大厦名称,而GPT-4V只能回答"看不清楚"。

面壁智能与清华大学开源超强端侧多模态大模型MiniCPM 2.0,中文OCR超GPT-4V,参数仅2B,手机秒变AI神器

此外,多模态通用能力是衡量基座模型水平的重要指标。在OpenCompass综合评测榜单上,MiniCPM-V 2.0凭借2B的小体量,却超越了10B、17B乃至34B级的主流模型,如Qwen-VL-Chat-10B、CogVLM-Chat-17B和Yi-VL-34B等。

面壁智能与清华大学开源超强端侧多模态大模型MiniCPM 2.0,中文OCR超GPT-4V,参数仅2B,手机秒变AI神器

在幻觉能力方面,MiniCPM-V 2.0与GPT-4V持平,达到开源模型最佳水平(Object HalBench)。

面壁智能与清华大学开源超强端侧多模态大模型MiniCPM 2.0,中文OCR超GPT-4V,参数仅2B,手机秒变AI神器

目前,MiniCPM-V 2.0已经可部署到智能手机,在图像理解和推理效率方面展现了卓越表现:

面壁智能与清华大学开源超强端侧多模态大模型MiniCPM 2.0,中文OCR超GPT-4V,参数仅2B,手机秒变AI神器

更适配端侧的小钢炮系列

在"高效大模型"的研究路径上,将大模型变得更小、更强,推动大模型落地应用。

MiniCPM-1.2B是一款小小钢炮,参数减少一半,推理速度提升38%,成本下降60%(1元=4150000 tokens)。在iPhone 15上的推理速度达25 token/s,是人类语速的15-25倍。

在公开评测中,MiniCPM-1.2B延续了"以小博大、越级超越"的传统,超越了Qwen1.8B、Llama2-7B乃至Llama2-13B。

面壁智能与清华大学开源超强端侧多模态大模型MiniCPM 2.0,中文OCR超GPT-4V,参数仅2B,手机秒变AI神器

同时推出的还有业界最小的"128K长文本"模型MiniCPM-2B-128K,将原先4K上下文窗口扩增至128K(20万字)。在InfiniteBench长文本评测集上,它的综合性能超过了6/7B级的多个模型。

面壁智能与清华大学开源超强端侧多模态大模型MiniCPM 2.0,中文OCR超GPT-4V,参数仅2B,手机秒变AI神器

此外,通过MoE架构的性能增强,让2B小钢炮MiniCPM 1.0的平均性能提高了4.5个百分点。MiniCPM-MoE-8x2B在性能上越级超越了,推理成本仅为Gemma-7B的69.7%。

面壁智能与清华大学开源超强端侧多模态大模型MiniCPM 2.0,中文OCR超GPT-4V,参数仅2B,手机秒变AI神器

结论

总的来说,面壁智能以"高效大模型"为目标,推出了MiniCPM系列,包括性能强劲的多模态模型MiniCPM-V 2.0、更小更快的基座模型MiniCPM-1.2B、最小长文本模型MiniCPM-2B-128K,以及性能优化的MoE版本MiniCPM-MoE-8x2B。这些模型不仅在技术指标上超越业内,在端侧部署效果上也令人瞩目,为大模型的落地应用注入新动能。

模型下载

Huggingface模型下载

huggingface.co/openbmb/Min…

AI快站模型免费加速下载

aifasthub.com/models/open…

转载自:https://juejin.cn/post/7363220159505121307
评论
请登录