面壁智能与清华大学开源超强端侧多模态大模型MiniCPM 2.0，中文OCR超GPT-4V，参数仅2B，手机秒变AI神器

站长

2024年09月29日 12:50 · 阅读数 120

前言

优秀的端侧模型系列面壁 MiniCPM 上新！一口气带来：

端侧多模态模型 MiniCPM-V 2.0：OCR 能力显著增强、甚至部分能力比肩 Gemini Pro；
适配更多端侧场景的基座模型 MiniCPM-1.2B：性能超越 Llama2-13B、推理速度达到人类语速近 25 倍；
最小的 128K 长文本模型 MiniCPM-2B-128K ；
性能进一步增强的 MoE 架构模型 MiniCPM-MoE-8x2B

端侧最强的多模态模型

多模态能力已经成为当下大模型的核心竞争力之一。作为智能终端设备频繁使用的影像视觉处理功能，对端侧部署的AI模型提出了更高的多模态识别与推理能力要求。

这次，面壁智能团队发布的MiniCPM-V 2.0不仅带来端侧最强的多模态通用能力，还展现了极为惊艳的OCR表现。通过自主研发的高清图像解码技术，突破了传统局限，让精准识别富有细节的街景、长图成为可能。

甚至，它还能识读2300年前的清华简上难以辨别的古老字迹，凭借卓越的OCR能力，为识读古文字打开了大门。比如，它可以准确找到竹简中最短的竹简，并识别出上面的字迹，连复杂的楚文字都能被正确解读。

Huggingface模型下载： huggingface.co/openbmb/Min…
AI快站模型免费加速下载：aifasthub.com/models/open…

面壁智能与清华大学开源超强端侧多模态大模型MiniCPM 2.0，中文OCR超GPT-4V，参数仅2B，手机秒变AI神器

在OCR综合能力方面，MiniCPM-V 2.0以"小钢炮"系列的"以小博大"传统，在权威OCRBench榜单上刷新了开源模型的最佳成绩。在场景图片文字识别的TextVQA榜单上，它越级超越了全系13B级通用模型，部分能力甚至媲美代表性的Gemini Pro。

面壁智能与清华大学开源超强端侧多模态大模型MiniCPM 2.0，中文OCR超GPT-4V，参数仅2B，手机秒变AI神器

新一代MiniCPM-V 2.0还加速解锁了过去难以识别的高清图像信息，如街景、长图等典型场景。传统模型只能处理固定尺寸的小图，对大像素或不规则图片的强制压缩，导致原图中大量信息丢失，难以准确识别。

得益于自主研发的高清图像解码技术，MiniCPM-V 2.0可处理高达180万像素的大图，甚至1:9超宽长图，都能进行高效编码和无损识别。

面壁智能与清华大学开源超强端侧多模态大模型MiniCPM 2.0，中文OCR超GPT-4V，参数仅2B，手机秒变AI神器

在中文OCR性能方面，MiniCPM-V 2.0也明显超越了GPT-4V。比如对同一张街景图，MiniCPM-V 2.0能准确识别出大厦名称，而GPT-4V只能回答"看不清楚"。

面壁智能与清华大学开源超强端侧多模态大模型MiniCPM 2.0，中文OCR超GPT-4V，参数仅2B，手机秒变AI神器

此外，多模态通用能力是衡量基座模型水平的重要指标。在OpenCompass综合评测榜单上，MiniCPM-V 2.0凭借2B的小体量，却超越了10B、17B乃至34B级的主流模型，如Qwen-VL-Chat-10B、CogVLM-Chat-17B和Yi-VL-34B等。

面壁智能与清华大学开源超强端侧多模态大模型MiniCPM 2.0，中文OCR超GPT-4V，参数仅2B，手机秒变AI神器

在幻觉能力方面，MiniCPM-V 2.0与GPT-4V持平，达到开源模型最佳水平(Object HalBench)。

面壁智能与清华大学开源超强端侧多模态大模型MiniCPM 2.0，中文OCR超GPT-4V，参数仅2B，手机秒变AI神器

目前，MiniCPM-V 2.0已经可部署到智能手机，在图像理解和推理效率方面展现了卓越表现:

面壁智能与清华大学开源超强端侧多模态大模型MiniCPM 2.0，中文OCR超GPT-4V，参数仅2B，手机秒变AI神器

更适配端侧的小钢炮系列

在"高效大模型"的研究路径上，将大模型变得更小、更强，推动大模型落地应用。

MiniCPM-1.2B是一款小小钢炮，参数减少一半，推理速度提升38%，成本下降60%(1元=4150000 tokens)。在iPhone 15上的推理速度达25 token/s，是人类语速的15-25倍。

在公开评测中，MiniCPM-1.2B延续了"以小博大、越级超越"的传统，超越了Qwen1.8B、Llama2-7B乃至Llama2-13B。

面壁智能与清华大学开源超强端侧多模态大模型MiniCPM 2.0，中文OCR超GPT-4V，参数仅2B，手机秒变AI神器

同时推出的还有业界最小的"128K长文本"模型MiniCPM-2B-128K，将原先4K上下文窗口扩增至128K(20万字)。在InfiniteBench长文本评测集上，它的综合性能超过了6/7B级的多个模型。

面壁智能与清华大学开源超强端侧多模态大模型MiniCPM 2.0，中文OCR超GPT-4V，参数仅2B，手机秒变AI神器

此外，通过MoE架构的性能增强，让2B小钢炮MiniCPM 1.0的平均性能提高了4.5个百分点。MiniCPM-MoE-8x2B在性能上越级超越了，推理成本仅为Gemma-7B的69.7%。

面壁智能与清华大学开源超强端侧多模态大模型MiniCPM 2.0，中文OCR超GPT-4V，参数仅2B，手机秒变AI神器

结论

总的来说，面壁智能以"高效大模型"为目标，推出了MiniCPM系列，包括性能强劲的多模态模型MiniCPM-V 2.0、更小更快的基座模型MiniCPM-1.2B、最小长文本模型MiniCPM-2B-128K，以及性能优化的MoE版本MiniCPM-MoE-8x2B。这些模型不仅在技术指标上超越业内，在端侧部署效果上也令人瞩目，为大模型的落地应用注入新动能。

模型下载

Huggingface模型下载

huggingface.co/openbmb/Min…

AI快站模型免费加速下载

aifasthub.com/models/open…

转载自:https://juejin.cn/post/7363220159505121307

评论

请登录