AI编程挑战赛首轮结果出炉:最高得分仅7.5%
创始人
2025-07-25 07:27:31
0

一项新的AI编程挑战赛公布了首轮获胜者,同时为AI驱动的软件工程师设立了新的评估标准。

周三太平洋时间下午5点,非营利组织Laude Institute宣布了K Prize的首位获胜者。K Prize是一项多轮AI编程挑战赛,由Databricks和Perplexity联合创始人Andy Konwinski发起。获胜者是一位名为Eduardo Rocha de Andrade的巴西提示工程师,他将获得5万美元奖金。但比获胜更令人惊讶的是他的最终得分:他仅以7.5%的正确率赢得了比赛。

"我们很高兴构建了一个真正困难的基准测试,"Konwinski说道。"如果基准测试要有意义,就应该具有挑战性,"他继续补充:"如果大型实验室用他们最强大的模型参赛,得分会有所不同。但这正是重点所在。K Prize在有限计算资源的离线环境中运行,因此更适合较小的开源模型。我很喜欢这一点,它创造了公平的竞争环境。"

Konwinski承诺向第一个在测试中得分超过90%的开源模型提供100万美元奖励。

与知名的SWE-Bench系统类似,K Prize通过测试模型处理GitHub标记问题的能力来评估其解决现实编程问题的水平。但与基于固定问题集的SWE-Bench不同,K Prize被设计为"无污染版本的SWE-Bench",采用定时提交系统来防止针对基准的特定训练。在第一轮中,模型需要在3月12日前提交。K Prize组织者随后仅使用该日期之后标记的GitHub问题构建测试。

7.5%的最高得分与SWE-Bench本身形成鲜明对比,后者目前在较简单的"验证"测试中显示75%的最高得分,在较困难的"完整"测试中为34%。Konwinski仍不确定这种差异是由于SWE-Bench的污染问题还是从GitHub收集新问题的挑战性,但他预期K Prize项目很快会给出答案。

"随着我们进行更多轮次的测试,我们会有更好的认识,"他告诉TechCrunch,"因为我们预期人们会适应每几个月在这方面竞争的动态变化。"

考虑到目前已有的大量AI编程工具,这似乎是一个奇怪的短板所在——但随着基准测试变得过于简单,许多批评者认为像K Prize这样的项目是解决AI日益严重的评估问题的必要步骤。

"我非常看好为现有基准构建新测试,"普林斯顿大学研究员Sayash Kapoor说,他在最近的一篇论文中提出了类似想法。"没有这样的实验,我们实际上无法判断问题是污染,还是仅仅是在人工参与下针对SWE-Bench排行榜进行优化。"

对于Konwinski来说,这不仅仅是一个更好的基准测试,更是对整个行业的公开挑战。"如果你听信那些炒作,就好像我们应该看到AI医生、AI律师和AI软件工程师,但事实并非如此,"他说。"如果我们在无污染的SWE-Bench上甚至无法获得超过10%的得分,这对我来说就是现实检验。"

相关内容

热门资讯

触乐怪话:陶瓷美学 触乐怪话,每天胡侃和游戏有关的屁事、鬼事、新鲜事。 图/小罗 前几天,我的同事陈静老师在怪话中提...
安琪酵母获得发明专利授权:“天... 证券之星消息,根据天眼查APP数据显示安琪酵母(600298)新获得一项发明专利授权,专利名为“天冬...
市建筑工程BIM技术应用落地专... 7月24日,市建筑工程BIM技术应用落地专题交流会在合庆南山北地块项目现场召开,市住建局党组成员、副...
软件服务故障致“星链”发生大面... 美国太空探索技术公司旗下卫星互联网服务“星链”7月24日发生网络中断现象,目前服务已基本恢复。 据网...
千幻世恒取得蓝牙耳机仓防水结构... 金融界2025年7月25日消息,国家知识产权局信息显示,东莞市千幻世恒实业有限公司取得一项名为“一种...
原创 冯... 前言 全球87%的稀土加工能力,91%的精炼能力,就像工业维生素的配方,掌握在 一个国家手中。 ...
英美科自动化设备取得连续型调配... 金融界2025年7月25日消息,国家知识产权局信息显示,英美科自动化设备(上海)有限公司取得一项名为...
重庆江北机场智能机器人“渝飞飞... 可以帮忙运送行李、找店铺、导航……想体验这样的贴心服务吗?7月25日,上游新闻记者从重庆江北机场了解...
直播预告丨仲夏桃花直播周即将火... 直播福利不停歇! 各位少侠,记得每晚锁定直播间! 刀光剑影,侠客齐聚!这个夏夜,天龙江湖将迎来一场火...
21岁偶像声优被爆出轨,经纪公... 7月23号晚上,一个X上比较有名的爆料账号声称,偶像声优进藤天音在和男友交往途中出轨,并附带了相关照...
原创 主... 爆料博主@数码闲聊站 昨日发布了一张华为手机的专利图,图中显示的是手机内置主动散热风扇的结构图,结合...
腾讯系新游今天开测,这群「前字... 腾讯的一步新棋。 文/九莲宝灯 今天 (7月25日),《命运扳机》终于开启了全球「先觉测...
设备已架、信号拉满、召唤师已就... 首届Z世代(东盟—中日韩青年)多彩电竞大赛暨贵州高校电竞联赛已加载完成! 📅7 月 24–27 日 ...
育碧下一款《幽灵行动》将改用虚... 据外媒Insider Gaming爆料,育碧新《幽灵行动》游戏将放弃自家的引擎,转而采用Epic的虚...
川大团队提出“主动式”铁电隔膜... 水系锌离子电池(AZIBs,Aqueous Zinc-ion Batteries)凭借其固有的高安全...
企业部署Data Agent ... “Data Agent供应商选型指南(附评估打分模型) Data Agent的热度持续攀升,但真正想...
2025决胜巅峰全球季中杯小组... 7月23日至27日,2025沙特电竞世界杯·决胜巅峰全球季中杯(MSC)正赛小组赛阶段正式拉开战幕,...
淮阴工学院“‘藜’我有‘缘’”... 7月12日上午,当清晨的阳光洒满庭院时,一群年轻人带着五彩的材料和暖暖的心意,走进了淮安市三树镇五保...
亿彩津元取得新型自动贴灯机的贴... 金融界2025年7月25日消息,国家知识产权局信息显示,天津市亿彩津元数控科技有限公司取得一项名为“...
599 元,三体携手破冰人官方... IT之家 7 月 25 日消息,三体宇宙官方联合破冰人推出了一款“水滴 CRUSH”金属游戏手柄,全...