2025 年中国多模态大模型行业主要模型 主要多模态大模型处理能力表现出色
创始人
2025-05-22 21:42:12
0

行业主要上市公司:阿里巴巴 ( 09988.HK,BABA.US ) ; 百度 ( 09888.HK,BIDU.US ) ; 腾讯 ( 00700.HK, TCEHY ) ;科大讯飞 ( 002230.SZ ) ;万兴科技 ( 300624.SZ ) ;三六零 ( 601360.SH ) ;昆仑万维 ( 300418.SZ ) ; 云从科技 ( 688327.SH ) ;拓尔思 ( 300229.SZ ) 等

多模态大模型类型及综合对比

视觉 + 语言的多模态大模型目前主流方法是:借助预训练好的大语言模型和图像编码器,用一个图文特征对齐模块来连接,从而让语言模型理解图像特征并进行更深层的问答推理。这样可以利用已有的大量单模态训练数据训练得到的单模态模型,减少对于高质量图文对数据的依赖,并通过特征对齐、指令微调等方式打通两个模态的表征。

多模态大模型类型 -CLIP

CLIP 是 OpenAI 提出的连接图像和文本特征表示的对比学习方法。CLIP 是利用文本信息训练一个可以实现 zero-shot 的视觉模型。利用预训练好的网络去做分类。具体来说,给网络一堆分类标签,比如 cat,dog,bird,利用文本编码器得到向量表示。然后分别计算这些标签与图片的余弦相似度 ; 最终相似度最高的标签即是预测的分类结果。论文提到,相比于单纯地给定分类标签,给定一个句子的分类效果更好。比如一种句子模板 A photo of a.,后面填入分类标签。这种句子模板叫做 prompt ( 提示 ) 。句子模板的选择很有讲究,还专门讨论了 prompt engineering,测试了好多种类的句子模板。提示信息有多种,下图可以看到它用不同的类别替换一句话中不同的词,形成不同的标签。

多模态大模型类型 -Flamingo

Flamingo 是一门多模态大型语言模型 ( LLM ) 于 2022 年推出。视觉和语言组件的工作原理如下:视觉编码器将图像或视频转换为嵌入 ( 数字列表 ) 。与 CLIP 不同,Flamingo 可以生成文本响应。从简化的角度来看,Flamingo 是 CLIP + 语言模型,并添加了技术,使语言模型能够根据视觉和文本输入生成文本标记。Flamingo 的 4 个数据集:2 个 ( 图像、文本 ) 对数据集、1 个 ( 视频、文本 ) 对数据集和 1 个交错的图像和文本数据集。

多模态大模型类型 - BLIP

BLIP ( Bootstrapping Language-lmage Pretraining ) 是由 Salesforce 在 2022 年提出的多模态预训练模型,它旨在统一视觉语言任务的理解与生成能力,并通过对噪声数据的处理来提高模型性能口。BLIP 的创新主要有两个方面:与 CLIP 相比,BLIP 不仅处理图像和文本的对齐问题,还旨在解决包括图像生成、视觉问答和图像描述等更复杂的任务。BLIP 采用了 " 引导学习 " 的方式,通过自监督的方式来增强模型对语言和视觉信息的理解。这些特点使其在处理图像和文本数据方面展现了卓越的性能,成为众多领域解决复杂问题的强大工具。

多模态大模型类型 -LLaMA

使用视觉编码器 CLIP ViT-L/14+ 语言解码器 LLaMA 构成多模态大模型,然后使用生成的数据进行指令微调。输入图片 X 经过与训练好的视觉编码器的到图片特征 Z,图片特征 Z 经过一个映射矩阵 W 转化为视觉 Token H,这样 Vison Token Hv 与 Language Token Hq 指令就都在同一个特征空间,拼接后一起输入大模型。这里的映射层 W 也可以替换为更复杂的网络来提升性能,比如 Flamingo 中用的 gated cross-attentio,BLIP-2 中用的 Q-former。

前瞻网

相关内容

热门资讯

【机构调研记录】鑫元基金调研普... 证券之星消息,根据市场公开信息及1月9日披露的机构调研信息,鑫元基金近期对1家上市公司进行了调研,相...
原创 闫... 闫学晶因2025年底直播中的“哭穷”言论引发全网舆论风波后,不仅“国民母亲”的正面人设彻底崩塌,更遭...
原创 玩... 玩家只用了3天,S42隐藏奖励被触发,获取难度很高,王者荣耀S42新赛季上线后,玩家圈子的情绪可以说...
深圳商用显示技术取得电子参展铭... 国家知识产权局信息显示,深圳商用显示技术有限公司取得一项名为“一种电子参展铭牌”的专利,授权公告号C...
新豪轴承取得轴承加工用测量装置... 国家知识产权局信息显示,新豪轴承(泰州)有限公司取得一项名为“一种轴承加工用测量装置”的专利,授权公...
荣耀Magic8 RSR保时捷... IT之家 1 月 12 日消息,荣耀 Magic8RSR 保时捷设计新机将在 1 月 19 日 19...
原创 史... 1月10日,雷军发了条微博:"特斯拉确实强,但并非不可战胜。我相信,假以时日,YU7 也能一较高下"...
规范互联网应用程序个人信息收集... 本报北京1月11日电 (记者金歆)为规范互联网应用程序个人信息收集使用活动,保护个人信息权益,促进个...
山西2026年“换新+购新”补... 真金白银补民生绿色智能焕消费 山西2026年“换新+购新”补贴点燃市场热潮 1月9日10时,山西省家...
飞时通取得多面体IC治具专利,... 国家知识产权局信息显示,深圳市飞时通科技有限公司取得一项名为“一种多面体IC治具”的专利,授权公告号...
一年价格涨幅高达280%,内存... 原标题:中产的新型「电子黄金」,涨疯了 年底一直是科技厂商密集发布新品的时间点,但今年的情况有点不同...
浙江冠宇取得电池包专利降低支架... 国家知识产权局信息显示,浙江冠宇电源有限公司取得一项名为“一种电池包”的专利,授权公告号CN2237...
凤锂电子取得锂电池跌落测试装置... 国家知识产权局信息显示,安徽省凤锂电子科技有限公司取得一项名为“一种锂电池跌落测试装置”的专利,授权...
全国首座纯粹量产固态电池基地投... 来源:市场资讯 (来源:我的电池网) 导语丨mybattery 合源锂创淮安制造基地作为全国首座纯粹...
【一线快讯】以无人机“智慧眼”... 为持续深化安全生产领域改革创新,筑牢化工园区安全防线,广饶县应急管理综合执法大队以科技为翼、向创新借...
1000亿美元!巨头宣布:打造... 近日,存储巨头美光科技宣布,将于1月16日下午在美国纽约州破土动工兴建其巨型晶圆厂。据悉,经过严格的...
华虹宏力申请半导体器件及形成方... 国家知识产权局信息显示,上海华虹宏力半导体制造有限公司申请一项名为“半导体器件及形成方法”的专利,公...
国网重庆信通:电力数字通信融合... 1月9日,国网重庆信通公司完成了电力数字通信融合创新实验室的专业测试平台搭建和实践应用,为重庆电网的...
彻底凉凉!她被封禁,全网作品被... “越来越离谱了!” 据报道,近日,在多个社交平台拥有35万粉丝、获赞超600万的吃播博主“快快超快乐...
国家网信办起草新规禁止APP偷... 中国国家互联网信息办公室1月10日就《互联网应用程序个人信息收集使用规定(征求意见稿)》向社会征求意...