混元与AI生图的“零延迟”时代
创始人
2025-05-20 18:01:13
0

晓静腾讯科技特约作者

5月16日,腾讯混元推出Hunyuan Image2.0(混元图像2.0模型),基于超高压缩倍率的图像编解码器,全新扩散架构,实现超快的推理速度和超高质量图像生成,极大降低“AI味”。

这个模型的诞生,意味着图像生成进入了“毫秒级”时代——"所见即所得",输入提示词的同时,即可看到图像发生变化,非常震撼。

当前主流文生图模型的最大问题是生成时间长,即使是业内领先的模型,也需要5-10秒才能生成一张图像。

此外,文生图模型普遍存在结果随机性问题,用户通常需要多次生成才能获得满意的结果。标准的使用流程通常是“输入提示词→等待数秒→查看结果→调整重试”,对于复杂图像,可能需要十余次调整才能得到真正可用的图。

如果能做到“所见即所得”,对产业应用而言,意味着降本增效;对个人用户而言,这项技术提供了类似即时设计助手的体验:制作演讲插图、创意宠物照片等任务都可以快速完成。即时反馈机制能让创意连贯,让想法更流畅地表达。

图:Hunyuan Image2.0在客观评测中超越同类图像生成竞品

腾讯科技在第一时间进行了实测:

1、 文生图指令遵循的能力很强,能按照文字的改变,实时修改图片中的内容;

2、 图生图有“参考主体”、“参考轮廓”两种模式,用户可以自己设定参考的强度。实现图片的二次编辑能力。但是在实测中,对于轮廓不太清晰的图片,参考轮廓的模式可用性稍差;

3、 对专业设计来说,结合画板给线稿进行上色、生成各种风格、调光影,可以及时方便看到效果;

4、 双画布联动中的多图层融合功能,存在一定抽卡概率,需要多次调试(比如主体参考强度、提示词)才能达到比较好的效果。

目前,模型已经开放体验,体验地址为:https://hunyuan.tencent.com/(限pc端)

普通人实现绘画自由

所思即所见

1、 文本生成图像:一边打字一边出图

毫秒级响应这个词汇比较抽象,在测试中的体验是,随着用户打字输入,实时能够生成我们想要的东西。

比如,我逐渐输入提示词:人像摄影,爱因斯坦,背景是东方明珠电视塔,自拍角度。可以看到,画面是在实时变化的,加入了背景,并在最后切换了拍摄角度。

人物的表情也可以瞬间改变,比如让爱因斯坦吐舌头:

除此之外,还可以连续对画面增加或修改多个细节:一个女生,亚洲面孔,大眼睛,笑容灿烂,长头发,穿中式服装,戴上帽子,手绘风格。

模型都能够快速实时生成成功,尤其是戴上帽子这个环节。

能够看到,模型给女孩戴上了类似于蓑笠的帽子,和衣服很搭配,比如并没有生成棒球帽等和图片整体风格“违和”的元素。

2、 图像生成图像:可调节遵循强度

除了文字直接生成图片,混元图像2.0也支持上传参考图,通过图生图。

但是,和传统生图模型不同的是,混元图像2.0可以提取主体或轮廓特征,融合文本指令生成新图像。用户可以自由选择参考主体、或参考轮廓两个模式。

如果选择参考主体,模型将会保持主体的一致性 ,角色、物体在生成中保持特征统一(如脸部,物体等)。而且,还能支持选择“参考强度”,强度越强,模型会越遵循原图主体;强度越弱,越有想象力。

图:主体一致输出,从左第一张图表示主体图,后面依次是主体图权重从低到高对应的效果图

通过图生图-参考主体这个功能,可以轻松给自己家宠物生成各种“整活儿”图片,比如上传一张猫咪照片,图像参考强度设定为92,让猫咪眼睛变大,在草地上,戴上皇冠。

如果选择参考轮廓,模型会自动提取图片的轮廓,比如左图的机器猫,会被提取成右图的“线稿”,然后我们还可以根据自己的想法输入提示词进行二次创作。比如给它二次上色,转换风格,搭配背景、光影。

但是,这里也发现了一个小缺陷,如果上传毛绒绒的轮廓不清晰的物体,比如上面案例中的小猫,模型就很难提取出轮廓。

同样,参考轮廓也可以设定参考的强度,比如下面的例子,左边第一张图表示边缘图,后面依次是轮廓图权重从低到高对应的效果图。

专业画师的生产力工具

实时文生图的功能,普通用户可以0门槛上手。如果有设计基础,还可以使用“双画布联动”画笔:左侧勾线,右侧即刻呈现上色预览,将过去“绘制—等待—修改”的创作流程压缩为一气呵成的实时预览。

比如下面这个案例,上传一张简单的汽车线稿,用prompt给它加上背景及颜色,迅速能够出现一个效果图片。但是在测试中我们发现,双画布的指令反应速度,可能会比实时文生图稍慢。

还可以实时对图片进行风格的修改,添加小元素,对比和原图的效果。比如下面的例子,通过一张小猫的图片,生成“家居猫、公主猫、古惑仔猫”。

再比如,将以下这只小狗放到游乐场中,戴上项圈,并转变风格。但是在测试中,我们发现,对于风格的定义会有主观性,有的时候复现的并不是我们脑中想象的样子,可能需要更多的细节进行描述。下面这只陶土风格的小狗,就和我的想象有点差别。

对于设计师来说,还有一个多图层融合的实用功能,支持将多个草图/图片(如人物、配饰)叠加至同一画布,自由DIY,AI 自动协调透视与光影,对应提示词内容,生成融合图像。但是这个功能,存在一定抽卡概率,需要多次调试(比如主体参考强度、提示词)才能达到比较好的效果。

但是,对于AI生成图片来说,即使是需要调整,速度快确实能“解千愁”,人类终于不必在等待中消磨创意,甚至让普通人也感受到了“神笔马良”般的超能力。

相关内容

热门资讯

日高鑫五金电子取得传输稳定的光... 金融界2025年8月22日消息,国家知识产权局信息显示,深圳市日高鑫五金电子有限公司取得一项名为“一...
四维图新:新一代辅助驾驶系统方... 8月22日,四维图新宣布其基于地平线征程®6B芯片研发的下一代辅助驾驶系统方案,已于近日顺利完成底层...
《潮汐守望者》新版本上线,双神... 大家好,家人们!今天必须要跟你们安利这个超炸的新版本!《潮汐守望者》「一念封神」今天正式上线啦!还记...
厚植科普和创新沃土,广东省科普... 是什么让中国视若珍宝,让美国急得跳脚?天宫对接如何在万里太空实现“完美一吻”?中国斗拱结构凭什么能抗...
从手机到MR:vivo如何开启... 来源:新浪科技 MR满足了用户对极致体验的追求,被认为是手机场景的迭代和补充。vivo于8月21日推...
沪电股份:对投资者多方面提问回... 来源:问董秘 投资者提问: 请问公司作为英伟达GB300架构高多层板主力供应商,在CoWoS替代方案...
互联网赋能建筑业 咸阳建工产业... 近年来,随着我国城镇化进程加快和基础设施建设全面推进,建筑工程行业始终保持着高热度。从城市更新到乡村...
南安:科特派全链深耕 激活产业... 近年来,南安市始终将科技特派员工作作为驱动科技创新、加速产业升级、赋能乡村振兴的核心引擎,通过持续深...
格斗选手半场“开香槟”被反杀,... 坐好,安静。 在前天的EWC电竞世界杯《街霸6》项目比赛中,中国格斗游戏职业选手小孩(曾卓君),险胜...
原创 路... 大家好我是指尖,都说赛场和路人局是两个游戏,其实就是对局质量的差距,路人局玩的是个人的实力,彼此间的...
南京再添研学打卡地!《故宫三部... 2025年恰逢北京故宫博物院成立100周年,8月22日,《故宫三部曲》人工智能艺术大展在南京洋河文化...
2025年企业电脑监控软件精选... 随着数字化工作模式的深入,电脑监控软件在企业和个人用户中的应用愈发广泛。无论是为了提升工作效率、保障...
原美团平台技术部负责人司天歌离... 8月22日,鞭牛士获悉,原美团平台技术部负责人司天歌7月已离职。司天歌在大象(美团内部沟通App)已...
这个周末去琶洲逛展:体验科技魅... 随着音乐节奏起舞的机器人、炫酷的无人驾驶载人航空器、来自全国各地的特产好物…… 8月22日上午,第3...
微致精密模具取得模具板自动定心... 金融界2025年8月22日消息,国家知识产权局信息显示,东莞市微致精密模具有限公司取得一项名为“一种...
美芯晟:智能家居与无线充电领域... 在科技飞速发展的当下,智能家居与无线充电领域正经历着前所未有的变革,美芯晟作为半导体行业的领军者,凭...
用户近2亿,稳赚15年还要折腾... 正确的事,需要的是被人做到。 文/九莲宝灯 在今年的科隆游戏展,有这么一个特别的活动吸引了葡萄君的注...
瑞士航空将为高端旅客提供私密封... 中国航空新闻网讯:据外媒报道,瑞士航空将在客舱内饰升级中推出高端服务,以头等舱套房的形式呈现,该服务...
三角洲 ALAN WALKER... 8 月 22 日,《三角洲行动》开启多重福利活动,从 ALAN WALKER 专属联动奖励到 “泼天...
湖北“机器侠”从实验室加速奔向... 原标题:朗毅导航,让参赛机器人“扔掉”遥控器!湖北“机器侠”从实验室加速奔向市场 8月的北京,国家速...