OpenAI新模型展现“AI Agent”潜力,Cursor AI客服“幻觉”暴露风险
创始人
2025-04-23 04:41:14
0

一、OpenAI智能代理获好评,身份验证程序引争议

OpenAI o3和o4-mini模型在上周发布, 开发者对新模型的反应值得关注。

▲OpenAI不同模型的指令遵循和代理工具使用对比数据

开发者说,OpenAI新一代推理模型正逐步成为对终端用户和开发者更有实用价值的“AI Agent”,这与前几代产品形成鲜明对比。此前版本被批评为仅能在封闭环境中快速解决数学问题的“超智能AI”。新模型的突破在于能够调用外部工具和应用程序,为用户提供端到端的任务处理能力,包括在编写复杂功能时在线搜索文档,以及为用户制定带有学习提醒的课程计划等。

最令开发者们印象深刻的能力还是其对图像相关问题的解答。在一个颇具代表性(同时也令人担忧)的案例中,用户向AI提供食物照片或普通风景照,要求模型推测拍摄地点,其准确率之高令人意外。

▲OpenAI o3模型图像识别功能演示图

当然,这些模型仍存在缺陷。它们在某些相对简单的问题上仍会出错,部分用户反映模型在解决问题时会未经提示就使用用户姓名,这种行为令人不适。

引发开发者争议的改动是通过API接口获取o3模型时新增的“身份验证”流程。据开发者透露,该流程要求用户上传政府签发的身份证件照片及面部识别视频。OpenAI此举可能旨在防止用户创建大量虚假账户获取o3模型输出数据,用于训练其他AI模型(即“模型蒸馏”技术)。但部分用户认为这一措施带有“监控”色彩,对向OpenAI提供个人数据表示担忧。

二、Cursor的AI客服编造登录政策,投诉声音高涨

目前看来,AI初创公司还算幸运,尚未出现过太多令人尴尬的AI事故。不过最近,首个因AI失误而让热门AI初创公司陷入困境的例子似乎出现了。

上周,一些开发人员注意到,Anysphere旗下热门AI编程助手Cursor存在一个问题:当他们试图从第二台电脑登录时,系统会将他们强制登出。 这对于需要在多种设备上测试网站或应用程序的开发者来说是个严重的困扰。

当开发人员向Cursor的支持邮箱反映这一问题时,他们收到了该公司AI客服代理的回复,称这是Cursor新登录政策下的正常行为。 但问题在于,根本不存在这样的登录政策, 这是客服机器人编造出来的,也就是所谓的“AI幻觉”。

▲Cursor AI客服回复截图

这一事件引起了许多开发者在社交媒体上投诉,有些人甚至表示已经因此取消了订阅。

其实在事件发生后,交流过的大多数开发者客户都认为这不是件大事,他们也承认这类错误在使用任何初创公司的产品时都难以避免。但这确实给企业上了一课:不要在没有任何人工核实的情况下过于依赖AI产品。

开发人员说,这起事件对Cursor使用的客服代理服务提供商的影响要比对Cursor本身的影响大得多。这不禁让人好奇Cursor使用的是哪家客服公司,特别是考虑到这类客服机器人之所以能够成为对话式AI最早普及的应用之一,部分原因就在于它们的风险较低。

不过,在AI时代,客服的风险可能会越来越大,如今客户更换供应商是一件非常容易的事。这一点在AI编程市场尤为明显,因为即使是像新模型发布或编码助记忆信息量调整这样的微小变动,都能迅速使开发者转向新产品。这种情况让新兴编程初创公司更容易崭露头角,比如针对非技术开发者的StackBlitz或Lovable以及像Cline这样的开源方案。

Cursor或许目前暂时占据了编程领域的宝座,但它最好能让客户保持满意(尤其是在其主要竞争对手Windsurf似乎可能与OpenAI合作的情况下)。

结语:用户体验是AI产品生存与发展的重要指标

OpenAI新发布的o3和o4-mini推理模型凭借其实用性获得开发者广泛好评,尤其是其图像识别与跨工具任务处理能力,为“AI Agent”概念赋予了新内涵。然而,新增的身份验证流程因涉及用户隐私与数据安全争议,引发部分开发者对技术监控的担忧,凸显出用户对隐私保护与信任机制的高度敏感。

与此同时,Cursor的AI客服因编造登录政策导致用户投诉激增,暴露出人工智能在客户服务场景中的“幻觉”风险。尽管多数开发者认为此类问题在初创企业产品中难以避免,但事件仍为行业敲响警钟:过度依赖AI而缺乏人工核验机制,不仅可能直接损害用户信任,更可能因服务失误导致用户流失。

决定AI产品生命力的不仅是技术参数的高低,更是每一个真实用户的使用感受。在AI技术快速迭代的当下,AI创新若不能以优质的用户体验为基础,或许将难以获得市场的持久认可。

来源:The Information

相关内容

热门资讯

微软承诺解决AI数据中心社区争... 微软公司今日宣布了一项名为"社区优先AI基础设施"的五点计划,旨在平息围绕其新建AI数据中心引发的社...
和讯投顾陈满堂:大盘4100支... 软件算力AI应用,包括商业航天,明天还得往下看,和讯投顾陈满堂提醒手中有的你得注意,大盘明天整体是个...
三星年内将关闭8英寸晶圆厂:全... 【CNMO科技消息】近日,据韩媒报道,三星电子计划在今年内关闭部分8英寸晶圆代工厂。此举旨在削减盈利...
原创?百度算法笑出声!猎犬闻的... 说实话,我到现在还记得那篇文章。 那是去年三月,我熬了两个通宵写的行业分析,五千多字啊。发到自己网站...
高树磁性材料取得磁性材料混料装... 国家知识产权局信息显示,合肥高树磁性材料有限公司取得一项名为“一种磁性材料混料装置”的专利,授权公告...
原创 别... 哈喽大家好,我是小8。 今天咱们不聊新手机,专门来聊聊那个在你手机桌面上躺了很久,却最容易被忽视的黄...
湖北:产学研用协同推进矿产资源... 近日,自然资源部发布《矿产资源节约与综合利用先进适用技术目录(2025年版)》。在此次公布的376项...
专业深度排行!为你带来手机去水... 在当今数字化时代,我们常常会遇到这样的困扰。当我们看到抖音、快手等平台上精彩的视频,或者小红书、微博...
LCK春季赛:Scout初登L... 经过漫长的休整期之后,LCK 2026春季赛终于在1月14日,正式拉开序幕。各支重组之后的队伍,将向...
金马电气申请油浸式变压器及其组... 国家知识产权局信息显示,安徽金马电气科技有限公司申请一项名为“一种油浸式变压器及其组装设备”的专利,...
Qwen超强模型+完整生态,阿... 超级AI助手迈入Agent时代。 当大模型带来的对话新鲜感逐渐褪去,行业逐渐意识到,单纯的“陪聊”并...
原创 美... 当太空成为全球竞争的新赛场,轨道与频率资源的争夺已进入白热化阶段,2026年初,我国向国际电信联盟集...
诺基亚贝尔申请感知模式切换专利... 国家知识产权局信息显示,上海诺基亚贝尔股份有限公司、诺基亚通信公司申请一项名为“感知模式切换”的专利...
声光一体式警示柱!这款“硬核神... 凌晨三点,某大型物流园区内,一辆货车正在倒车入库。司机因疲劳驾驶未能注意到后方障碍物,千钧一发之际,...
果然财经|内存条涨价引发连锁反... 齐鲁晚报·齐鲁壹点 张志恒 “去年16G内存条一百六七十块就能拿下,现在直奔七百多;1TB硬盘从三百...
格力电器申请设备通信方法专利,... 国家知识产权局信息显示,珠海格力电器股份有限公司;珠海联云科技有限公司申请一项名为“一种设备通信的方...
中创智领:拟募资不超43.5亿... 【1月15日中创智领拟发不超43.5亿可转债】1月15日,中创智领公告透露,公司计划向不特定对象发行...
中元股份:公司目前有少量医疗信... 证券之星消息,中元股份(300018)01月15日在投资者关系平台上答复投资者关心的问题。 投资者提...
三星Galaxy Z Flip... 热点科技“2025年度卓越科技产品”五星奖颁奖盛典正式揭幕。盛典聚焦移动设备、电脑硬件、智能家电、智...
一加Turbo 6全面体验评测... 一、前言:性能与续航双下探 一加 Turbo系列的开篇之作 2026年,一加Turbo 6正式登场,...