作者丨齐铖湧
编辑丨陈彩娴
过去一段时间,大模型行业经历了一场风切变。
越来越多厂商官宣了自己的小模型成果:8 月初,腾讯官宣“混元系列小模型”落地,不久后,阿里跟进两款通义Qwen3–4B。
起初,大家以为只是国内大厂对轰,互秀肌肉罢了。几天后,剧情愈演愈烈。
大洋彼岸,英伟达研究院和佐治亚理工大学在论文里抛出了一个“暴论”:小语言模型才是未来,在社交媒体上引发了不少讨论。
Press enter or click to view image in full size
论文链接:https://arxiv.org/abs/2506.02153v1
不久后, OpenAI 也传来消息,破天荒开源了 GPT-OSS-20B 等两款小尺寸模型。同日,面壁开源最新的4B参数的多模态模型 MiniCPM-V 4.0。
头部玩家们如此整齐划一的举动表明:小模型不再只是囿于算力资源的创业公司的押注;相反,在基础大模型突破愈发艰难的当下,越来越多公司将研发团队的部分战斗力转向小模型,尤其是落地到各个终端设备上的端侧模型。
事实上,面壁智能 CEO 李大海很早就提出:AGI 的实现必然分为云端与终端两条技术路线。只是在云端基础大模型火热比拼的背景下,这一观点很容易被行业喧嚣所湮没。
云端上,DeepSeek 与 Qwen 被誉为国内基础模型的第一梯队,许多厂商与这两家竞争屡屡碰壁。相形之下,终端模型此前玩家甚少。如果你认为这是一个门槛低、技术壁垒低的赛道,转向冲刺端侧小模型,现实或许比你想象得要骨感:
端侧模型是一个广阔的赛道,但并不如大家想象中的技术含量低、竞争更容易。
面壁智能从 2024 年 1 月发表第一款“小钢炮” MiniCPM 1.0 小模型以来,从端侧模型领跑者到今天的端侧模型行业落地先行者,已经走过一年半的时间。他们的探索表明,端侧模型在技术研究上的难点不亚于基础大模型,落地上更是同时受限于算力、功耗、速度要求等因素。
换言之,AI 基础模型无论追求“极大”还是“极小”,都要求扎实的技术积累与持续突破。
1. 当小模型走出“论文”世界
事实上,小模型之风并不是今年才掀起:从 2023 年下半年开始,Mistral AI、面壁智能、岩芯数智等团队就已经在开始探索落地到手机、电脑、机器人、汽车等终端设备上的端侧模型。
由于这些端侧模型的参数规模都不大,因此也被业界乃至投资人误以为:这是一个买得起几张卡的高校实验室就能突破的方向,俗称“小模型”。但实际上,模型虽小,要求的技术含量却不小。在去年年中,OpenAI 也发布了 o1-mini 等成果,苹果、DeepSeek、Qwen 团队也陆续发布了相应的小模型。
停留在论文上的小模型,与真正落地到终端设备上的小模型,实际有着“天壤之别”:
主打基础大模型的厂商看似可以“顺手”地在其发布的大模型基础上蒸馏出 7B、8B 尺寸的小模型,并在不同的榜单上取得高分 — — 但这个行为的意义,实际只能表明其论文层面的小模型性能,进而借小模型来佐证大模型的能力、吸引更多的开发者。
当这些小模型要走向终端设备时,还需要经过一段长时间与设备厂商的磨合:从算力、功耗要求、推理速度到断网延迟等等,做模型与设备的适配 — — 而大部分基础模型厂商,并没有足够的时间、资源或魄力去完成这一步。
苹果、三星手机厂商虽有团队探索小模型,但最终也陆续与专门的模型厂商接触,恰说明论文层面开源的小模型难以满足这一需求。
那么,小模型从论文走出、落地到终端设备上的难点是什么呢?
本质上,就是需要戴着镣铐跳舞:对于设备厂商来说,算力、功耗、网络延迟是端侧模型必须适配的要求。许多尝试接触设备厂商的模型团队在这一过程中屡屡碰壁,正是因为无法从技术上解决端侧小模型算力高、功耗高、推理速度慢或多模态能力不足的问题。
以手机厂商为例。单从开源社区上下载开源小模型落地到手机上,虽然满足了手机特有的算力限制,但由于模型尺寸不佳、底层架构没搞好等,即使模型能在手机上跑起来,也会立刻出现“发烫”、“宕机”、“极度耗电”等问题;更别提需要调用云端算力的小模型,一遇到断网就直接“歇菜”。
我们平时生活中使用的手机,平板汽车等设备,都是算力非常有限的设备。
在部署模型时,最关键的两大限制是内存容量和 CPU/GPU 处理速度。云端的高性能服务器通常拥有庞大的内存容量,往往超过 100GB 甚至 1TB,相比之下,手机的内存通常在 12GB 到 16GB 之间,基本无法支撑多模态大模型的部署。
另一方面,智能手机中 CPU 的整体处理速度明显较慢,且据了解,目前专为 AI 时代的终端设备开发的芯片进度仍较缓慢,许多设备用的是前几代的算力。
比如,骁龙 8 Gen3 只有 8 个 CPU 核心,Intel Xeon Platinum 8580 则达到了 60 个 CPU 核心;功效方面,高通 Adreno 750 只有 6 TFLOPS,而 NVIDIA 4090 则可以达到 83 TFLOPS。这意味着,我们的手机,平板,车机,在没有云端服务器支持的情况下,显然无法跑这些动辄几十亿参数的模型。
所以,虽然 3B、7B、8B 这样的小模型在训练算力上的要求不高,往往几张卡就能满足,但是如何在满足算力、设备功耗等基础上、还能保持优异的模型性能,就需要持续的深耕与高含量的技术实力。
面壁智能作为国内端侧模型的佼佼者,能赢得投资人持续支持,并在国内连续两三年的大模型红海竞争中生存下来,占据“端侧第一”的行业心智,正是因为他们确实在小模型技术上“有点东西”。
8月15日,李大海在面壁智能三周年之际发出全员信,信中谈到端侧战略选择背后 — — “百模大战硝烟弥漫之际,管理团队曾深度自省,大模型同质化竞争严重,面壁的核心竞争力是什么?答案愈辩愈明:高效!我们是天生的效率追求者,自觉地追求‘同等性能我最小,同等参数我最强’,最终带来更快速度、更低成本的端侧模型方案。”
2. 当“开拓者”,没那么简单
从 2023 年国内众多玩家群涌向云端大模型时,面壁智能就已选择 all in 端侧小模型。
面壁智能不仅比阿里通义、腾讯混元更早开启小模型的探索,并且几乎是领先行业一年半的身位。提前一年半的布局,让面壁有不少成果。
模型层面,面壁推出了“小钢炮” MiniCPM 端侧模型系列,2024 年至今完成了四次基础模型的迭代。
2024 年 2 月 1 日,推出 MiniCPM 1.0 旗舰端侧模型,以 2.4 B 参数超越了号称「欧洲版 OpenAI」Mistral 的性能标杆之作 Mistral-7B,甚至领先于更晚推出的 Google Gemma模型。
同时还越级超越 Llama2–13B、ChatGLM3–6B 等知名高性能开源模型。但缺点是它只是纯文本基座。
同一年,MiniCPM 2.0 发布上线,不仅把体量变小一半,还把系列拆成 1.2 B、2B、MoE 8×2B 以及视觉版 MiniCPM-V 2.0,其中 MiniCPM-1.2B 适配了更多落地场景的同时,性能超越了 Llama2–13B,推理速度也达到了人类语速近 25 倍。
Press enter or click to view image in full size
2024 年三季度,MiniCPM 3.0 登场。
这一代最大的特色是“以小博大”。凭借 4B 的模型,打平甚至超越 GPT-3.5-Turbo 与 Phi-3.5-mini,还在端侧能做到无限长文本,这意味着,端侧模型的“ ChatGPT 时代 ”来临了。
MiniCPM4.0 是在今年推出的,这一代不仅做到了 5% 的原生极高稀疏度,实现推理常规 5 倍加速,最关键的是,让长文本、深思考在端侧真正跑起来,宣告了端侧长文本时代到来。
四次迭代,面壁智能的端侧模型体积越来越小,上下文越来越长,能力越来越全,部署越来越轻。
最近发布的 4B 参数的多模态模型MiniCPM-V 4.0 ,在 OpenCompass 等多个榜单取得同级 SOTA ,还得益于独特的模型结构设计,实现了同尺寸模型下最快的首响时间与更低的显存占用,真正做到了稳定运行、快速响应,在手机上长时间连续使用无发热、无卡顿。
MiniCPM-V 4.0模型链接:
Hugging Face:
🔗 https://huggingface.co/openbmb/MiniCPM-V-4
Github:
🔗 https://github.com/OpenBMB/MiniCPM-o
上个月 Nature 子刊《Nature Communications》正式收录了面壁智能此前发布的一项关于新模型 MiniCPM-V 的研究成果系列,其中就包括一个 OpenCompass 评分中超越 GPT-4V(2023.11.16 版本)的 80 亿参数模型。
开源方面,面壁智能的小钢炮 MiniCPM 系列是 2024 年 Hugging Face 最多下载、最受欢迎的中国大模型,截至目前全平台下载量累计破 1300 万。
除去技术和学术等层面,真正能让大家直观感受的,还是落地到现实世界的场景。
面壁内部信显示,MiniCPM 模型作为「端侧大脑」的核心,已经在汽车、手机、PC、家居等终端领域落地生根。
特别是汽车场景,面壁智能在打造智能化汽车的新一代人机交互(AI座舱)方面,形成了特色优势。面壁发布了一个以 MiniCPM 模型为核心的汽车助手 cpmGO — — 据 AI 科技评论了解,这是业界第一个纯端侧的智能座舱。
cpmGO有三个特点:
快准稳 — — 91%执行准确率,交互流畅
纯本地 — — 数据不离车,毫秒级响应
全场景 — — 无惧弱网断网
能做到这样的特性,背后是与高通、英特尔、联发科技、梧桐车联、德赛西威、中科创达、安波福等在内的十几家主流芯片厂商方案的适配与优化。
Press enter or click to view image in full size
据了解,目前面壁已经与长安、上汽大众、长城、吉利、广汽等车企达成合作。搭载端侧模型的第一款量产车会在今年三季度上市,型号是网红车款长安马自达 MAZDA EZ-60。
Press enter or click to view image in full size
内部信披露,在7月下旬的组织升级中,面壁专门成立了“汽车业务线”,推动下一代智能座舱压强式突破,目标非常直接:“将MiniCPM 搭载到更多汽车上”。
对于如何看待升温的端侧智能战场,李大海在信中也做出了回应:“压力当然存在,但并非来自友商竞争。恰恰相反,更多创业公司和巨头涌入,印证了我们选择赛道的正确性与前景的无限可能。更多参与者,必将带来市场加速成长,让我们能更早实现‘为每台设备装上大脑’的端侧愿景。端侧场景也足够丰富和分散,容得下众多参与者各自找到发展的商业价值。”
“面壁真正的压力,是要在新入局者还在追赶面壁技术优势时,把商业优势更快地建立起来,转化为商业成功,这需要我们极致追求技术与用户价值的平衡。在有限的端侧硬件环境中,我们已经高效地把模型跑起来,还要聪明地把模型技能点都「点」在用户需求的「睛」上,创造出云端模型无法替代的差异化用户体验。”
Summary
he article “The Next Battlefield of AI: Rise of Edge-Side Models” highlights the industry’s shift from large-scale models to smaller, edge-deployed models. Major players like Tencent, Alibaba, OpenAI, and MiniCPM’s developer OpenBMB are investing in compact models that can run efficiently on devices such as smartphones, PCs, and cars. Unlike academic small models, real-world edge models must overcome constraints of limited memory, power, and inference speed. OpenBMB’s MiniCPM series has rapidly iterated through four generations, achieving competitive or even superior performance compared to larger models, while being optimized for deployment in automotive AI cockpits and other edge applications. The article argues that edge-side AI is becoming the next major growth frontier, with high technical barriers but vast commercial potential.