2025 年中国多模态大模型行业主要模型 主要多模态大模型处理能力表现出色
创始人
2025-05-22 21:42:12
0

行业主要上市公司:阿里巴巴 ( 09988.HK,BABA.US ) ; 百度 ( 09888.HK,BIDU.US ) ; 腾讯 ( 00700.HK, TCEHY ) ;科大讯飞 ( 002230.SZ ) ;万兴科技 ( 300624.SZ ) ;三六零 ( 601360.SH ) ;昆仑万维 ( 300418.SZ ) ; 云从科技 ( 688327.SH ) ;拓尔思 ( 300229.SZ ) 等

多模态大模型类型及综合对比

视觉 + 语言的多模态大模型目前主流方法是:借助预训练好的大语言模型和图像编码器,用一个图文特征对齐模块来连接,从而让语言模型理解图像特征并进行更深层的问答推理。这样可以利用已有的大量单模态训练数据训练得到的单模态模型,减少对于高质量图文对数据的依赖,并通过特征对齐、指令微调等方式打通两个模态的表征。

多模态大模型类型 -CLIP

CLIP 是 OpenAI 提出的连接图像和文本特征表示的对比学习方法。CLIP 是利用文本信息训练一个可以实现 zero-shot 的视觉模型。利用预训练好的网络去做分类。具体来说,给网络一堆分类标签,比如 cat,dog,bird,利用文本编码器得到向量表示。然后分别计算这些标签与图片的余弦相似度 ; 最终相似度最高的标签即是预测的分类结果。论文提到,相比于单纯地给定分类标签,给定一个句子的分类效果更好。比如一种句子模板 A photo of a.,后面填入分类标签。这种句子模板叫做 prompt ( 提示 ) 。句子模板的选择很有讲究,还专门讨论了 prompt engineering,测试了好多种类的句子模板。提示信息有多种,下图可以看到它用不同的类别替换一句话中不同的词,形成不同的标签。

多模态大模型类型 -Flamingo

Flamingo 是一门多模态大型语言模型 ( LLM ) 于 2022 年推出。视觉和语言组件的工作原理如下:视觉编码器将图像或视频转换为嵌入 ( 数字列表 ) 。与 CLIP 不同,Flamingo 可以生成文本响应。从简化的角度来看,Flamingo 是 CLIP + 语言模型,并添加了技术,使语言模型能够根据视觉和文本输入生成文本标记。Flamingo 的 4 个数据集:2 个 ( 图像、文本 ) 对数据集、1 个 ( 视频、文本 ) 对数据集和 1 个交错的图像和文本数据集。

多模态大模型类型 - BLIP

BLIP ( Bootstrapping Language-lmage Pretraining ) 是由 Salesforce 在 2022 年提出的多模态预训练模型,它旨在统一视觉语言任务的理解与生成能力,并通过对噪声数据的处理来提高模型性能口。BLIP 的创新主要有两个方面:与 CLIP 相比,BLIP 不仅处理图像和文本的对齐问题,还旨在解决包括图像生成、视觉问答和图像描述等更复杂的任务。BLIP 采用了 " 引导学习 " 的方式,通过自监督的方式来增强模型对语言和视觉信息的理解。这些特点使其在处理图像和文本数据方面展现了卓越的性能,成为众多领域解决复杂问题的强大工具。

多模态大模型类型 -LLaMA

使用视觉编码器 CLIP ViT-L/14+ 语言解码器 LLaMA 构成多模态大模型,然后使用生成的数据进行指令微调。输入图片 X 经过与训练好的视觉编码器的到图片特征 Z,图片特征 Z 经过一个映射矩阵 W 转化为视觉 Token H,这样 Vison Token Hv 与 Language Token Hq 指令就都在同一个特征空间,拼接后一起输入大模型。这里的映射层 W 也可以替换为更复杂的网络来提升性能,比如 Flamingo 中用的 gated cross-attentio,BLIP-2 中用的 Q-former。

前瞻网

相关内容

热门资讯

想关免密支付为啥那么难 “关不掉”的免密支付,肥了平台的钱包? 近日,话题“一定要关闭免密支付和自动扣款”冲上社交平台热搜,...
月球“晚年”为何还有火山喷发?... 中新社北京8月23日电 (记者 孙自法)作为地球的一颗天然卫星,月球的起源演化备受关注。科学界普遍认...
贵阳贵安:数智赋能“强环境” ... 良好的营商环境是发展经济的“先手棋”。作为全国首个国家大数据综合试验区核心区,贵阳贵安正以敢为人先的...
“数”聚山西 “智”启新程 当前,人工智能热潮澎湃,智算革命扑面而来。见证着我国算力产业向实向新的发展进程,一场算力领域的顶级盛...
云南:打造“顶天”“立地”的科... 省委书记王宁为获得2024年度云南省科学技术杰出贡献奖的云南大学教授张喜光颁奖并讲话。 他指出,云南...
梦幻西游:仅鉴定5把武器就逆袭... 对于众多梦幻西游电脑版的玩家而言,观看主播们进行装备鉴定早已成为日常娱乐的一部分。其中,【生日快乐】...
原创 4... 4妹被遗忘了,黑神话钟馗即将上线,预告片12小时播放量突破900万,北京时间8月20日凌晨,2025...
梦幻西游:129凌波城,10锻... Hello大家好,我是浩仔! 关注浩仔,每天给你带来最新梦幻西游游戏资讯! 以下点评仅代表个人意见,...
原创 E... Elk小丑事件发酵,本人直言无所谓,网友扒出他早期黑料,在近期的LPL赛场上,IG对阵BLG的比赛成...
网游大佬的精神解药?6万一块的... 随着网络游戏成为最普及的大众娱乐方式,很多玩家也在游戏中大开眼界,见识到了跟自己不是同一阶层的土豪大...
悠悠牌桌游出牌谨慎!穿越火线枪... 手游巴士(www.shouyoubus.com)2025年08月23日: 大家好,新版本更新后,限时...
天合光能获得发明专利授权:“光... 证券之星消息,根据天眼查APP数据显示天合光能(688599)新获得一项发明专利授权,专利名为“光伏...
手机充电,需牢记这几点→ 手机电量还剩多少,对许多人而言都是一个关键的问题。 人们对手机充电的强烈需求,也让市面上催生出许多噱...
手机移动充电宝哪款值得入手?5... 手机续航焦虑已经成为年轻人日常中绕不开的话题,而一款好用的移动充电宝,几乎成了出行的“第二电池”。市...
潍坊青州:科技创新 驱动企业向... 潍坊青州市持续加大对优质中小企业的培育支持力度,引导一批科技型企业围绕培育发展新质生产力,持续研发新...
东方国信获得发明专利授权:“数... 证券之星消息,根据天眼查APP数据显示东方国信(300166)新获得一项发明专利授权,专利名为“数据...
原创 挑... 随着Android、iOS系统愈发完善,第三方ROM的生存空间已经逐渐被挤压,即便亚马逊的Fire ...
湖南大学:2025年智算中心光... 今天分享的是:湖南大学:2025年智算中心光电协同交换网络全栈技术白皮书 报告共计:53页 智算中心...
秦汉新城企业获得三奖 8月22日,记者从秦汉新城获悉,2025年陕西省企业“三新三小”创新竞赛评审结果揭晓,西咸新区秦汉新...
乐创享取得应用于电机的散热器专... 金融界2025年8月22日消息,国家知识产权局信息显示,深圳市乐创享科技有限公司取得一项名为“一种应...