苹果发布Pico-Banana-400K数据集,帮助训练AI图像编辑模型
创始人
2025-10-29 20:01:23
0

10 月 29 日消息,苹果公司发布了 Pico-Banana-400K,这是一个包含 40 万张图像的研究数据集,有趣的是,该数据集是利用谷歌的 Gemini-2.5 模型构建的。

据IT之家了解,苹果的这个研究成果名为《Pico-Banana-400K:面向文本引导图像编辑的大规模数据集》(Pico-Banana-400K: A Large-Scale Dataset for Text-Guided Image Editing),该公司还发布了由此生成的包含 40 万张图像的完整数据集。该数据集采用非商业性研究许可(non-commercial research license)发布,意味着研究人员和学术机构可自由使用,但不得用于商业用途。

数月前,谷歌推出了 Gemini 2.5-Flash-Image 模型,也被称为 Nanon-Banana,该模型在图像编辑任务中表现出色,被广泛认为是当前最先进的图像编辑模型之一。尽管近年来多个模型在图像生成与编辑方面取得显著进展,苹果的研究团队指出:“尽管技术不断进步,开放研究仍受限于缺乏大规模、高质量且可完全共享的图像编辑数据集。现有数据集往往依赖专有模型生成的合成数据,或仅包含有限的人工筛选子集。此外,这些数据集普遍存在领域偏移(domain shifts)、编辑类型分布不均以及质量控制不一致等问题,严重阻碍了鲁棒图像编辑模型的发展。”

为解决这一瓶颈,苹果团队着手构建一个更全面、更具代表性的图像编辑数据集。

Pico-Banana-400K 的构建过程

研究团队首先从 OpenImages 数据集中选取了大量真实照片,确保涵盖人物、物体及含文字场景等多样化内容。

然后,团队设计了 35 种不同类型的图像修改指令,并将其归入八大类别,包括:

像素与光度调整(Pixel & Photometric):如添加胶片颗粒或复古滤镜;以人为中心的编辑(Human-Centric):例如将人物转换为 Funko-Pop 风格的玩具形象;场景构成与多主体编辑(Scene Composition & Multi-Subject):如改变天气条件(晴天 / 雨天 / 雪天);对象级语义修改(Object-Level Semantic):如移动物体位置或调整空间关系;图像缩放(Scale):如放大画面(Zoom in)等。

接下来,研究人员会将一张原始图像连同一条编辑指令输入至 Nanon-Banana 模型进行图像编辑。生成结果随后交由 Gemini 2.5-Pro 模型进行自动评估,判断其是否准确遵循指令并具备良好视觉质量。只有通过双重验证的结果才会被纳入最终数据集。

Pico-Banana-400K 不仅包含单轮编辑(single-turn edits,即一次提示完成编辑)的样本,还涵盖了多轮连续编辑序列(multi-turn edit sequences),以及“偏好对”(preference pairs)—— 即成功与失败编辑结果的对比样本,帮助模型学习区分理想与不良输出。

尽管研究团队承认 Nanon-Banana 在精细空间控制、布局外推和文字排版处理方面仍存在局限,但他们强调,Pico-Banana-400K 的目标是为下一代文本引导图像编辑模型提供一个坚实、可复现的训练与评测基础。

目前,相关研究论文已发布于预印本平台 arXiv,而完整的 Pico-Banana-400K 数据集也已在 GitHub 上向全球研究者免费开放。

【来源:IT之家】

相关内容

热门资讯

AI人才争夺战白热化,谷歌另辟... IT之家 12 月 20 日消息,在 OpenAI、Meta 和 Anthropic 之间的人才竞争...
SpaceX罕见披露卫星失联事... 据媒体19日报道,数小时前,近期备受资本市场关注的SpaceX罕见披露了一起在轨卫星事故。 据“星链...
【年度AI观察】2025,人形... 文 | 智能相对论 作者 | 许成行 2025年,人形机器人产业在争议中迎来发展深水区。 一边是20...
爆屏修复机构排名揭秘:靠谱好用... 在当今数字化时代,手机已经成为人们生活中不可或缺的工具。然而,手机屏幕不慎摔碎、出现裂痕等爆屏情况时...
“风清”“风雷”“风顺”气象人... (来源:经济日报) 转自:经济日报 12月19日,中国气象局发布“风清”“风雷”“风顺”三个气象人...
“固态电池”上市容易,上车可就... 作者|Hayward 原创首发|蓝字计划 在“国产 GPU 第一股”“国产GPU 第二股”点燃投资市...
“千兆上网”仍卡顿,运营商回应... “光纤到户,千兆上网”近年在大城市逐渐普及,然而很多用户在打游戏或者视频直播时依然会遇到卡顿问题,这...
元戎启行获产业巨头追捧,剑指2... 来源:华旋评测 据媒体报道,元戎启行获得国内头部Tier 1和海外豪华车企的青睐,可能获得战略投资。...
ChatGPT新增暖心程度调节... IT之家 12 月 20 日消息,据科技媒体 The Verge 今天报道,OpenAI 昨天在 C...
广告电商MCN协同发展,哪家母... 概述 在母婴垂直领域,多个平台基于用户规模、服务范围与专业度等维度呈现不同特点。以下内容基于公开信息...
摩尔线程上市后的第一场大会,办... 国产GPU的叙事重心,正在从“造芯”转向“造生态”。 作者|王艺 摩尔线程上市后的首场大会来了。 2...
大庆油田数智技术减负提效 □伊丽娜 王凤颖 本报记者 刘楠 李民峰 中国石油大庆油田自主研发的抽油机井电参数字化技术,已累计应...
求囤货照片,美国知名空头质疑英... 美国知名空头迈克尔·伯里征求美国英伟达公司图形处理器(GPU)被客户囤积的证据,尤其是照片。 美国本...
苹果为何在日本大幅降低“苹果税... 为了遵守一部新生效的法律,日本的“苹果税”率从30%调降至21%,中小开发者从15%降至10% 文 ...
公牛集团回应宣传语争议:有第三... 来源:澎湃新闻 此前,广东中山市家的电器有限公司(以下简称“家的公司”)多个销售人员在社交平台发布视...
上海发布“游戏沪十条”,为游戏... 12月19日,2025年度中国游戏产业年会在上海徐汇西岸国际会展中心落幕。大会发布《2025年中国游...
从代码到衣橱:SHEIN 斩获... 如果你对 SHEIN 的印象还停留在“一家神秘的时尚独角兽”,那你可能已经错过了它的第二张面孔,也是...
GPT - 5.2发布后用户吐... OpenAI十周岁生日时发布了GPT - 5.2,该模型在基准测试等表现亮眼,但社交网络上用户却集体...
瑞声科技(02018)入选“恒... 智通财经获悉,12月18日,恒生指数公司宣布推出恒生港股通电子业主题指数。 该指数反映可经港股通买卖...
2025年消费信贷市场观察:如... 随着消费信贷监管持续趋严,如何在众多借贷产品中甄别合规、透明、低息的正规平台,成为消费者关注的焦点。...