AI编程挑战赛首轮结果出炉:最高得分仅7.5%
创始人
2025-07-25 07:27:31
0

一项新的AI编程挑战赛公布了首轮获胜者,同时为AI驱动的软件工程师设立了新的评估标准。

周三太平洋时间下午5点,非营利组织Laude Institute宣布了K Prize的首位获胜者。K Prize是一项多轮AI编程挑战赛,由Databricks和Perplexity联合创始人Andy Konwinski发起。获胜者是一位名为Eduardo Rocha de Andrade的巴西提示工程师,他将获得5万美元奖金。但比获胜更令人惊讶的是他的最终得分:他仅以7.5%的正确率赢得了比赛。

"我们很高兴构建了一个真正困难的基准测试,"Konwinski说道。"如果基准测试要有意义,就应该具有挑战性,"他继续补充:"如果大型实验室用他们最强大的模型参赛,得分会有所不同。但这正是重点所在。K Prize在有限计算资源的离线环境中运行,因此更适合较小的开源模型。我很喜欢这一点,它创造了公平的竞争环境。"

Konwinski承诺向第一个在测试中得分超过90%的开源模型提供100万美元奖励。

与知名的SWE-Bench系统类似,K Prize通过测试模型处理GitHub标记问题的能力来评估其解决现实编程问题的水平。但与基于固定问题集的SWE-Bench不同,K Prize被设计为"无污染版本的SWE-Bench",采用定时提交系统来防止针对基准的特定训练。在第一轮中,模型需要在3月12日前提交。K Prize组织者随后仅使用该日期之后标记的GitHub问题构建测试。

7.5%的最高得分与SWE-Bench本身形成鲜明对比,后者目前在较简单的"验证"测试中显示75%的最高得分,在较困难的"完整"测试中为34%。Konwinski仍不确定这种差异是由于SWE-Bench的污染问题还是从GitHub收集新问题的挑战性,但他预期K Prize项目很快会给出答案。

"随着我们进行更多轮次的测试,我们会有更好的认识,"他告诉TechCrunch,"因为我们预期人们会适应每几个月在这方面竞争的动态变化。"

考虑到目前已有的大量AI编程工具,这似乎是一个奇怪的短板所在——但随着基准测试变得过于简单,许多批评者认为像K Prize这样的项目是解决AI日益严重的评估问题的必要步骤。

"我非常看好为现有基准构建新测试,"普林斯顿大学研究员Sayash Kapoor说,他在最近的一篇论文中提出了类似想法。"没有这样的实验,我们实际上无法判断问题是污染,还是仅仅是在人工参与下针对SWE-Bench排行榜进行优化。"

对于Konwinski来说,这不仅仅是一个更好的基准测试,更是对整个行业的公开挑战。"如果你听信那些炒作,就好像我们应该看到AI医生、AI律师和AI软件工程师,但事实并非如此,"他说。"如果我们在无污染的SWE-Bench上甚至无法获得超过10%的得分,这对我来说就是现实检验。"

相关内容

热门资讯

人形机器人产业,大利好! 12月26日,工业和信息化部人形机器人与具身智能标准化技术委员会(以下简称“标委会”)成立大会在京举...
筑牢伦理根基 让人工智能翻译传... (来源:中国改革报) 转自:中国改革报 □ 易曼 每一门语言都是人们在特定地域、经过漫长的历史和生活...
美林美育大课堂走进社区 | 萌... 当传统生肖文化邂逅指尖创意,当专业艺术资源走入寻常邻里,会碰撞出怎样的温暖火花?近日,北京韩美林艺术...
【卫星互联网技术公司】哪家强?... 引言 卫星互联网作为新一代信息技术的重要组成部分,正深刻改变着人们的生活和社会的发展。它凭借覆盖范围...
技术经理人,陪“1”跑到“10... 培育壮大高水平技术经理人队伍。 ——摘自省委《建议》 12月15日,南京医科大学教授李飞将一款小分子...
AG王朝陨落,一诺赛后发长文,... 王者挑战者杯赛事精彩依旧在火热进行中,这一次是AG超玩会和Hero的对决,输了的直接淘汰,生死局,谁...
空间小鼠实验为人类驻留太空奠定... 央视网消息:今年11月1日,4只实验小鼠随神舟二十一号乘组抵达中国空间站。这是我国首次开展空间站小型...
荣耀WIN系列首销告捷 年度电... 【CNMO科技消息】12月27日,荣耀手机公布了荣耀WIN系列的首销成绩,斩获京东平台全品牌全机型销...
深华亚精密科技取得双向式滑轨结... 国家知识产权局信息显示,东莞市深华亚精密科技有限公司取得一项名为“双向式滑轨结构”的专利,授权公告号...
奋进的回响|跑出“中国加速度” 【编者按】岁末年终之际,为全景式展现2025年中国在全面建设社会主义现代化国家新征程上的奋斗足迹与发...
前锦网络申请数据库SQL语句处... 国家知识产权局信息显示,前锦网络信息技术(上海)有限公司申请一项名为“数据库SQL语句处理方法、电子...
昊益精密取得嵌入式车位锁专利,... 国家知识产权局信息显示,东莞市昊益精密机械有限公司取得一项名为“一种嵌入式车位锁”的专利,授权公告号...
工业和信息化部人形机器人与具身... 新华社北京12月27日电(记者周圆)工业和信息化部人形机器人与具身智能标准化技术委员会成立大会日前在...
资讯:小奶油喷红米教练认错道歉... 雷竞技S15全球总决赛LPL官方纪录片《争者留其名》中,一段关于TES战队的中场画面成为了舆论焦点。...
既有技术厚度,更有民生温度 □ 本报记者 张宣 实习生 李凌云 12月27日,以“智赋江苏,聚势腾飞”为主题的2025江苏省人工...
GEO排名查询工具怎么用?手把... 你的品牌在新兴的AI搜索引擎中“隐身”了吗?这正是GEO排名查询工具要回答的核心问题。随着生成式AI...
“风云家族”上“星” 太空“气... 中新社北京12月27日电 (记者 马帅莎 郑莹莹)风云四号C星(又称风云四号03星)12月27日在西...
智赋荆楚,灵启新程!华为坤灵中... 智能化浪潮席卷荆楚大地,在长江经济带与中部崛起战略的双重驱动下,湖北中小企业作为区域经济的“活力引擎...
贯彻中央部署,重要委员会成立!... 撰文 | 李岩 中国工信新闻网27日消息,26日,工业和信息化部人形机器人与具身智能标准化技术委员...
上海克林技术取得绕线系统专利,... 国家知识产权局信息显示,上海克林技术开发有限公司取得一项名为“一种绕线系统”的专利,授权公告号CN2...