2025多模态大模型和应用发展趋势及商业化进程分析报告

关于报告的所有内容,公众号『行业报告智库』阅读原文或点击菜单获取报告下载查看。

在人工智能领域,多模态大型语言模型(MLLM)融合大语言模型(LLM)和大型视觉模型(LVM)的能力,已成为大语言模型演进的必然方向。它能够全面接收、推理并输出多模态信息,极大拓展了人工智能的应用边界。

从技术架构来看,MLLM 主要分为非原生(模块化)与原生两种类型。非原生架构通过 Pipeline 形式连接多模态与 LLM,此过程依赖预训练模块和高效连接器。这种架构相对灵活,易于搭建,但在信息整合的效率上存在一定局限。原生架构则采用端到端的训练方式,直接在全部模态数据上同步训练,无需依赖预训练模型。原生架构具有更高的统一性和效率,能更深入地挖掘多模态数据间的潜在联系,但训练成本极高,对技术要求也更为苛刻。

目前,OpenAI、Google 等全球头部厂商在原生 MLLM 领域处于领先地位,积极推动着这一前沿技术的发展。而在国内,尽管相关企业也在积极探索原生架构,但尚未诞生参数规模较大的原生多模态模型,像字节跳动的豆包等产品,本质上仍是多模态模型的拼接,在架构的创新性和融合度上与国际领先水平存在一定差距。

商业化进程方面,海外市场展现出更为迅猛的发展态势。在全球年化收入超 1 亿美金的 AI 产品中,海外多模态初创公司占据了较高比例。这些公司凭借先进的技术和敏锐的市场洞察力,迅速将多模态技术应用于多个领域,实现了商业价值的快速转化。相比之下,国内多模态商业化靠前的企业多为具有多模态技术且出海比例较高的上市公司。从收入贡献度来看,国内外二级公司在 2C 和 2B 业务上的 AI 收入占比差距并不显著。在 2C 领域,多模态技术在智能客服、内容创作辅助等方面得到广泛应用,提升用户体验的同时,也为企业带来了可观的收入。2B 市场中,金融、制造、医疗等行业对多模态技术的需求持续增长,企业通过为这些行业提供定制化解决方案,实现了商业化落地。

多模态产品正处于持续迭代升级的阶段。在图像生成领域,早期产品主要聚焦于生成高质量图像,如今则逐渐转向提升易用性与整合度。不同企业开始寻求差异化竞争,例如有的产品专注于特定风格图像的生成,满足艺术创作、广告设计等细分领域的需求;有的则致力于提升图像生成与其他设计工具的兼容性,为用户提供更便捷的创作流程。

视频生成成为国内厂商重点发力的赛道。国内企业在视频生成技术上不断取得突破,在视频时长、清晰度等关键指标上持续提升。许多产品采用免费 + 订阅制的商业模式,先通过免费试用吸引用户,再依靠优质的付费功能实现盈利。

语音、音乐等其他多模态产品也在不断拓展内容类型矩阵,个性化定制能力日益受到重视。语音助手能够根据用户的使用习惯和偏好,提供个性化的语音交互服务;音乐生成软件可以根据用户输入的情感、风格等要素,创作符合需求的音乐作品。

目前,国内大模型发展面临着诸多瓶颈。其中,算力受限成为核心问题。由于缺乏强大的算力支持,国内企业在模型训练的速度和规模上受到制约,进而导致技术路线创新缓慢。与国际先进水平相比,国内模型在处理复杂任务和大规模数据时,性能表现存在一定差距。国内高价值用户数据相对较少,数据的质量和多样性不足,这也在一定程度上影响了模型的训练效果。海外头部闭源模型的先发优势,也对国内市场形成了较大的竞争压力,限制了国内模型的市场份额和应用范围。

在商业化方面,国内面临模型技术与海外存在差距以及用户付费习惯尚未完全养成的双重挑战。国内模型在性能和功能上与海外先进模型相比,仍有提升空间,这使得部分用户更倾向于选择海外产品。而且,国内用户长期以来对数字产品的付费意愿相对较低,这给多模态产品的商业化推广带来了困难。不过,多模态应用为国内企业提供了商业化突破的契机。互联网厂商凭借自身丰富的应用场景和庞大的用户基础,在多模态应用的开发和推广上具有先发优势。通过将多模态技术融入现有的业务体系,如社交平台、电商平台等,互联网厂商能够为用户提供全新的体验,从而实现商业化变现。

社交账号快速登录