【数媒在线课堂】新的基础设施
创始人
2025-07-03 00:21:49
0

应用边界在不断拓宽的同时,多模态模型的能力也在成长。

而随着应用场景的深化,模型架构也在同步进化,从基础感知迈向复杂推理成为必然趋势。OpenAI 在 2025 年 4 月发布了多模态模型 O3 和 O4-mini,实现了 “用图像思考” 的突破性能力。这些模型不仅能够识别图像内容,还能将图像信息整合进推理思维链,支持多步推理和因果分析,比如够处理模糊、倒置或复杂的图像输入,并给出合理的推理结果。

其背后的关键技术包括分层注意力机制,将图像分解为局部细节、全局关系和时序逻辑三层结构,从而提升对图像内容的理解能力;动态工具链调用,在推理过程中,模型可以自主选择 Python 分析、知识图谱检索、图像生成等工具辅助决策,以及安全约束模块,通过对抗训练减少模型的幻觉输出。

就在本月,中国科学院自动化研究所等单位的科研人员首次证实,多模态大语言模型在训练过程中自己学会了 “理解” 事物,而且这种理解方式和人类非常像。

科研人员借鉴人脑认知的原理,设计了一个巧妙的实验:让大模型和人类玩 “找不同” 游戏。实验人员会给出三个物品概念(选自 1854 种常见物品),要求选出最不搭的那个。通过分析高达 470 万次的判断数据,科研人员绘制出了大模型的 “思维导图”——“概念地图”。通过实验证实多模态大模型具备类人 “概念理解” 能力。研究团队设计 “找不同” 游戏,基于 470 万次判断数据绘制大模型 “概念地图”,提炼 66 个理解维度(如物体功能、文化意义),发现其与人脑神经活动高度一致,证明多模态模型比纯文本模型更接近人类思维模式。

据谷歌云在 2024 年年底发布的《2025 年人工智能商业趋势报告》,预测到 2025 年,多模态 AI 将成为企业采用 AI 的主要驱动力。这种技术通过整合图像、视频、音频和文本等多种数据源,使 AI 能够以前所未有的准确性从更广泛的上下文源中学习,提供更精确、定制化的输出,创造自然直观的体验。报告预计,全球多模态 AI 市场规模将在 2025 年达到 24 亿美元,到 2037 年底达到 989 亿美元。

2025 进度已经过半,我们也能看到市面上许多多模态技术和产品的进展,而这场变革的终极图景,或许正是让 AI 真正成为理解世界、服务人类的 “多模态智能伙伴”。

相关内容

热门资讯

两小时速通demo后,我觉得它... 上周六,一醒来我就收到来自不少朋友关于一款国产悬疑游戏的吃播消息轰炸,大约有二十多条,包括不仅限于“...
《战地6》Steam页面上线:... Steam页面确认《战地6》首发支持中文配音: 关于此游戏 子弹上膛,尽享终极全面战争体验。投...
《Dear me, I was... 亚克系统亚洲(ARC SYSTEM WORKS ASIA)宣布,Nintendo Switch™2专...
厨房纸测评:漫花、妮好厨色吸力... 在追求洁净高效与便捷生活的今天,厨房纸巾凭借其强吸水吸油、即用即弃的特性,已成为现代家庭厨房清洁的得...
2025年Roblox安装全攻... 在2025年,Roblox依然稳坐全球热门游戏平台的宝座,其多样化的虚拟世界和无限的创作空间继续吸引...
“数”联海丝 “福”通世界 回溯历史,绵延万里的海上丝绸之路,曾是东西方文明交融互鉴的纽带,见证了沿线人民跨海联通、互利合作的壮...
跟着赛事游包头 | 达茂联合旗... 达茂联合旗第35届那达慕大会于2025年7月31日上午9:30在百灵那达慕文化产业园盛大开幕。 重点...
云呼叫中心的定义与发展历程 云呼叫中心(Cloud Call Center)是基于云计算技术构建的分布式客户交互平台,通过互联网...
原创 4... 前言 仅仅一周四十万以色列人从特拉维夫机场离开,一半是医生、工程师、大学教授、科学家巨额企业家。 有...
梦幻西游【′天天开心°】再战【... 梦幻西游第33届帮派联赛总决赛将于明日拉开帷幕,参赛双方为南阳府服务器【′天天开心°】和钱塘江服务器...
河北泽悦取得一种密封球阀专利,... 金融界2025年7月24日消息,国家知识产权局信息显示,河北泽悦节能设备科技有限公司取得一项名为“一...
原创 L... 随着2025 LPL第三赛段拉开帷幕,赛程目前已经进行到了第二周,而今天最受瞩目的一场比赛就是登峰组...
又一国产单机游戏大爆,13万人... 发售首日,《明末:渊虚之羽》热度与口碑产生分化。 继去年8月国产3A游戏《黑神话:悟空》大火出圈之后...
《通灵战士 幽灵舰队与消失的英... 亚克系统亚洲(ARC SYSTEM WORKS ASIA) 宣布,Nippon Ichi Softw...
数字阅读进社区!南开区图书馆把... 近日,一场主题为“数字阅读进社区,书香体验零门槛”的推广活动在集园里社区火热开展。南开区图书馆将数字...
华为发布新款鸿蒙旗舰平板电脑 ... 本报记者 贾丽 7月24日,华为正式发布全新的鸿蒙旗舰平板电脑HUAWEIMatePadPro12....
罕见!3个台风“同框共舞”,影... 浙江已进入台风活跃期。 7月24日中午,第9号台风“罗莎”生成,加上第7号台风“范斯高”和第8号台风...
机器人潜力黑马,社保基金+国家... 来源:向往心里的自由 中国机器人产业正步入一个前所未有的黄金发展期。 2025年,人形机器人领域的融...
VCTCN:autumn包点游... 2025VCTCN第二赛段第三周第二个比赛日,FPX经过三局比赛精彩鏖战,2:1战胜DRG顺利晋级季...
2026亚运会电竞项目揭晓 我... 2026年爱知·名古屋亚运会电子竞技项目最终名单公布,共设13款游戏,涵盖竞技武术团体赛(3款格斗游...