中国信通院开启大模型幻觉测试,涵盖人文社科等五大维度
创始人
2025-03-19 17:40:56
0

近日,中国信息通信研究院(中国信通院)通过其官方微信公众号发布了一项重要举措,旨在深入探索大型人工智能模型(大模型)的“幻觉”现象,并推动其在实际应用中的安全与可靠性。该举措基于前期AI Safety Benchmark的测评经验,正式启动了针对大模型的幻觉测试项目。

所谓大模型幻觉(AI Hallucination),是指当这些模型在生成文本或回答问题时,可能会创造出看似合理但实际上与用户输入不符(即忠实性幻觉)或违背事实(即事实性幻觉)的内容。随着大模型在医疗、金融等关键行业的广泛应用,这种幻觉现象所带来的潜在风险日益凸显,引起了业界的广泛关注。

本次幻觉测试主要针对的是大语言模型,测试内容涵盖了忠实性幻觉和事实性幻觉两大类型。为了全面评估这些模型,测试数据包含了超过7000条中文测试样本,测试形式则分为信息抽取、知识推理(针对忠实性幻觉)以及事实判别(针对事实性幻觉)等题型。测试维度广泛,涵盖了人文科学、社会科学、自然科学、应用科学和形式科学等多个领域。

具体来看,测试体系的设计旨在通过多样化的题型和丰富的测试样本,准确捕捉大模型在不同情境下的幻觉表现。这不仅有助于揭示模型潜在的缺陷,也为后续的优化和改进提供了重要依据。

为了推动大模型的安全应用,中国信通院诚挚邀请相关企业积极参与此次模型测评。通过共同的努力,旨在提升大模型的准确性和可靠性,降低幻觉现象带来的应用风险。

中国信通院还强调了测试工作的重要性,指出这不仅是对大模型性能的一次全面检验,更是推动人工智能领域健康发展的重要一环。通过持续的测试和评估,将有助于提高整个行业对大模型幻觉现象的认识和应对能力。

相关内容

热门资讯

智城翼云申请算力需求预测系统控... 国家知识产权局信息显示,深圳市智城翼云科技有限公司申请一项名为“算力需求预测系统的控制方法、设备和存...
超通制造申请二氧化碳喷射最佳位... 国家知识产权局信息显示,无锡超通智能制造技术研究院有限公司申请一项名为“二氧化碳喷射最佳位置调节机构...
秭归自然资源“一张图”夯实空间... 2025年,秭归县自然资源和规划局持续深化“一张图”实施监督信息系统建设,通过高效汇聚、动态更新国土...
【楚商风采】科峰智能:冲击湖北... 机器人全身上下30多个关节,公司都能生产,是全国人形机器人硬件的NO.1。 2025年,频频登上热搜...
主流母婴平台中,哪家的技术投入... 主题引入 母婴垂直平台在家庭育儿数字化服务中扮演重要角色,不同平台在功能定位、用户覆盖与技术应用方面...
浙江省首台(套)认定!当虹科技... 在硬盘涨价、存储成本承压的当下,当虹科技的视频压缩产品,正逐步成为各行各业省存储的首要选择。 近日,...
法拉第未来完成首款EAI机器人... 上证报中国证券网讯(记者 俞立严)1月26日,在纳斯达克上市的法拉第未来(Faraady Futur...
苹果MacBook Pro更新... 【环球网科技综合报道】1月26日消息,据彭博社记者 Mark Gurman报道,配备 OLED 触控...
全球首份动力电池循环经济研究报... 来源:市场资讯 (来源:中化新网) 中化新网讯 1月20日,瑞士达沃斯——世界经济论坛年会期间,艾伦...
“太空旅行”不算新闻了,他已开... 最近,一则消息持续轰炸网络:我国某商业航天公司将在2028年送第一批旅客进入太空,其中签约者不乏“行...
原创 一... 尽管“能源—暴风雪”计划规模空前,在整个前苏联境内留下了大量遗迹,但在众多建成的飞行器和试验模型中,...
黑河市消防救援支队党委委员慰问... 党委委员看望慰问 新训带训骨干 黑河市消防救援支队 1月25日上午,黑河支队党委委员、政治部主任韩宝...
东徕硕取得多功能电池支架专利,... 国家知识产权局信息显示,昆山东徕硕塑胶有限公司取得一项名为“一种多功能电池支架”的专利,授权公告号C...
南方科技大学孟庆虎:马斯克关于... “Optimus(特斯拉旗下的人形机器人)什么时候能超越人类最好的外科医生?答案是三年内,而且是规模...
Faker唯一不会用的英雄有了... 大家好,S16赛季的比赛已经正式开始了,相信绝大多数的玩家都关注了最近一段时间的对抗,Lck赛区的比...
联想申请PUSCH资源指示机制... 国家知识产权局信息显示,联想(北京)有限公司申请一项名为“PUSCH资源指示机制”的专利,公开号CN...
全球首创!奥克化学锂电池添加剂... 近日,辽宁奥克化学股份有限公司与吉林奥克新材料有限公司联合研发的“环氧乙烷与二氧化硫催化合成锂电池添...
原创 猎... 大家好,我是正在看剪影的何二维一。 今天官方也是正式放出了1.5版本春节魂师千仞雪的人物剪影,其实吧...
原创 猎... 大家好,我是正在汇总信息的何二维一。 今天游戏也是于先遣服正式更新了1.5版本,虽然内容量和咱们之前...
《生化危机:安魂曲》导演称新作... IT之家 1 月 26 日消息,《生化危机:安魂曲》导演中西晃史今天接受游戏媒体 EuroGamer...