面壁智能与清华大学开源超强端侧多模态大模型MiniCPM 2.0,中文OCR超GPT-4V,参数仅2B,手机秒变AI神器
前言
优秀的端侧模型系列面壁 MiniCPM 上新!一口气带来:
- 端侧多模态模型 MiniCPM-V 2.0:OCR 能力显著增强、甚至部分能力比肩 Gemini Pro;
- 适配更多端侧场景的基座模型 MiniCPM-1.2B:性能超越 Llama2-13B、推理速度达到人类语速近 25 倍;
- 最小的 128K 长文本模型 MiniCPM-2B-128K ;
- 性能进一步增强的 MoE 架构模型 MiniCPM-MoE-8x2B
端侧最强的多模态模型
多模态能力已经成为当下大模型的核心竞争力之一。作为智能终端设备频繁使用的影像视觉处理功能,对端侧部署的AI模型提出了更高的多模态识别与推理能力要求。
这次,面壁智能团队发布的MiniCPM-V 2.0不仅带来端侧最强的多模态通用能力,还展现了极为惊艳的OCR表现。通过自主研发的高清图像解码技术,突破了传统局限,让精准识别富有细节的街景、长图成为可能。
甚至,它还能识读2300年前的清华简上难以辨别的古老字迹,凭借卓越的OCR能力,为识读古文字打开了大门。比如,它可以准确找到竹简中最短的竹简,并识别出上面的字迹,连复杂的楚文字都能被正确解读。
- Huggingface模型下载: huggingface.co/openbmb/Min…
- AI快站模型免费加速下载:aifasthub.com/models/open…
在OCR综合能力方面,MiniCPM-V 2.0以"小钢炮"系列的"以小博大"传统,在权威OCRBench榜单上刷新了开源模型的最佳成绩。在场景图片文字识别的TextVQA榜单上,它越级超越了全系13B级通用模型,部分能力甚至媲美代表性的Gemini Pro。
新一代MiniCPM-V 2.0还加速解锁了过去难以识别的高清图像信息,如街景、长图等典型场景。传统模型只能处理固定尺寸的小图,对大像素或不规则图片的强制压缩,导致原图中大量信息丢失,难以准确识别。
得益于自主研发的高清图像解码技术,MiniCPM-V 2.0可处理高达180万像素的大图,甚至1:9超宽长图,都能进行高效编码和无损识别。
在中文OCR性能方面,MiniCPM-V 2.0也明显超越了GPT-4V。比如对同一张街景图,MiniCPM-V 2.0能准确识别出大厦名称,而GPT-4V只能回答"看不清楚"。
此外,多模态通用能力是衡量基座模型水平的重要指标。在OpenCompass综合评测榜单上,MiniCPM-V 2.0凭借2B的小体量,却超越了10B、17B乃至34B级的主流模型,如Qwen-VL-Chat-10B、CogVLM-Chat-17B和Yi-VL-34B等。
在幻觉能力方面,MiniCPM-V 2.0与GPT-4V持平,达到开源模型最佳水平(Object HalBench)。
目前,MiniCPM-V 2.0已经可部署到智能手机,在图像理解和推理效率方面展现了卓越表现:
更适配端侧的小钢炮系列
在"高效大模型"的研究路径上,将大模型变得更小、更强,推动大模型落地应用。
MiniCPM-1.2B是一款小小钢炮,参数减少一半,推理速度提升38%,成本下降60%(1元=4150000 tokens)。在iPhone 15上的推理速度达25 token/s,是人类语速的15-25倍。
在公开评测中,MiniCPM-1.2B延续了"以小博大、越级超越"的传统,超越了Qwen1.8B、Llama2-7B乃至Llama2-13B。
同时推出的还有业界最小的"128K长文本"模型MiniCPM-2B-128K,将原先4K上下文窗口扩增至128K(20万字)。在InfiniteBench长文本评测集上,它的综合性能超过了6/7B级的多个模型。
此外,通过MoE架构的性能增强,让2B小钢炮MiniCPM 1.0的平均性能提高了4.5个百分点。MiniCPM-MoE-8x2B在性能上越级超越了,推理成本仅为Gemma-7B的69.7%。
结论
总的来说,面壁智能以"高效大模型"为目标,推出了MiniCPM系列,包括性能强劲的多模态模型MiniCPM-V 2.0、更小更快的基座模型MiniCPM-1.2B、最小长文本模型MiniCPM-2B-128K,以及性能优化的MoE版本MiniCPM-MoE-8x2B。这些模型不仅在技术指标上超越业内,在端侧部署效果上也令人瞩目,为大模型的落地应用注入新动能。
模型下载
Huggingface模型下载
AI快站模型免费加速下载
转载自:https://juejin.cn/post/7363220159505121307