应用边界在不断拓宽的同时,多模态模型的能力也在成长。
而随着应用场景的深化,模型架构也在同步进化,从基础感知迈向复杂推理成为必然趋势。OpenAI 在 2025 年 4 月发布了多模态模型 O3 和 O4-mini,实现了 “用图像思考” 的突破性能力。这些模型不仅能够识别图像内容,还能将图像信息整合进推理思维链,支持多步推理和因果分析,比如够处理模糊、倒置或复杂的图像输入,并给出合理的推理结果。
其背后的关键技术包括分层注意力机制,将图像分解为局部细节、全局关系和时序逻辑三层结构,从而提升对图像内容的理解能力;动态工具链调用,在推理过程中,模型可以自主选择 Python 分析、知识图谱检索、图像生成等工具辅助决策,以及安全约束模块,通过对抗训练减少模型的幻觉输出。
就在本月,中国科学院自动化研究所等单位的科研人员首次证实,多模态大语言模型在训练过程中自己学会了 “理解” 事物,而且这种理解方式和人类非常像。
科研人员借鉴人脑认知的原理,设计了一个巧妙的实验:让大模型和人类玩 “找不同” 游戏。实验人员会给出三个物品概念(选自 1854 种常见物品),要求选出最不搭的那个。通过分析高达 470 万次的判断数据,科研人员绘制出了大模型的 “思维导图”——“概念地图”。通过实验证实多模态大模型具备类人 “概念理解” 能力。研究团队设计 “找不同” 游戏,基于 470 万次判断数据绘制大模型 “概念地图”,提炼 66 个理解维度(如物体功能、文化意义),发现其与人脑神经活动高度一致,证明多模态模型比纯文本模型更接近人类思维模式。
据谷歌云在 2024 年年底发布的《2025 年人工智能商业趋势报告》,预测到 2025 年,多模态 AI 将成为企业采用 AI 的主要驱动力。这种技术通过整合图像、视频、音频和文本等多种数据源,使 AI 能够以前所未有的准确性从更广泛的上下文源中学习,提供更精确、定制化的输出,创造自然直观的体验。报告预计,全球多模态 AI 市场规模将在 2025 年达到 24 亿美元,到 2037 年底达到 989 亿美元。
2025 进度已经过半,我们也能看到市面上许多多模态技术和产品的进展,而这场变革的终极图景,或许正是让 AI 真正成为理解世界、服务人类的 “多模态智能伙伴”。