OpenAI发布重要论文:揭示大模型幻觉问题,评估方法是主因

AI快讯20小时前更新 wuaiai
14 00

近日,OpenAI罕见发表论文系统性揭示AI幻觉根源,指出标准训练和评估程序倾向奖励猜测而非鼓励模型承认不确定,是导致幻觉持续存在的部分原因,同时大语言模型的学习机制也与之相关,为此OpenAI提出更新评估方法的建议,并回应了相关常见误解。

AI幻觉成信任阻碍,OpenAI发文揭示根源
AI最令人诟病的“幻觉”问题,即模型自信地编造事实,让使用者真假难辨,这成为人们完全信任AI的关键障碍。尽管学术界已提出多种降低模型幻觉的方法,但尚无根治良方。近日,OpenAI罕见发表论文《Why Language Models Hallucinate》,试图系统性地揭示幻觉的根源。

幻觉的定义与表现
OpenAI将幻觉定义为“模型自信地生成不真实答案的情况”。幻觉表现为语言模型生成看似合理却错误的陈述,例如向不同聊天机器人询问Adam Tauman Kalai(论文一作)的博士论文标题或生日时,它们会自信给出不同但都错误的答案。

评估机制导致幻觉持续存在
OpenAI表示,幻觉持续存在部分源于当前评估方法设置了错误的激励机制。大多数评估模型性能的方式鼓励模型猜测,而非诚实地面对不确定性。以多项选择题测试为例,猜测可能猜对得分,留空则得零分,模型在仅以准确度评分时,会倾向猜测而非承认“我不知道”。在对数千道测试题的评估中,猜测型模型表现优于谨慎且承认不确定的模型。从三类答案(准确答案、错误答案、弃权答案)来看,大多数分数指标依准确度对模型排序,错误答案比弃权答案更差,而目前以准确度为衡量标准的评估指标仍占主导,鼓励开发者构建猜测型模型,导致即便模型更先进仍会产生幻觉。

从下一个词预测机制剖析幻觉成因
语言模型通过预训练预测海量文本中下一个词进行学习,与传统机器学习问题不同,语句无“真/假”标签,模型仅见流畅语言正面示例,需近似整体分布,这使得区分有效与无效语句困难。像拼写和括号遵循一致模式,错误会随规模扩大消失,但任意低频事实,如生日、论文标题等,无法仅凭模式预测,从而导致幻觉。理想情况下预训练后的阶段应消除幻觉,但因评估机制问题未能完全实现。

OpenAI提出应对幻觉的评估方法
OpenAI指出,应对幻觉需对自信错误的惩罚力度大于对不确定性的惩罚力度,并对恰当表达不确定性的行为给予部分加分。不过,仅增加新的不确定性感知测试不足,需更新广泛使用的基于准确度的评估方法,阻止模型猜测。修改评估指标有助于扩大降低幻觉技术的应用范围。

OpenAI回应幻觉常见误解
OpenAI集中回应了关于幻觉的几个常见误解:一是认为幻觉能通过100%准确率根除,实际因现实世界部分问题本质无法回答,准确率永远达不到100%;二是认为幻觉不可避免,实际上模型可在不确定时选择“弃权”避免;三是认为只有更大模型才能避免幻觉,有时小模型反而更易认识自身局限性;四是认为幻觉是神秘偶然的系统故障,实则已理解其产生的统计学机制及现有评估体系的影响;五是认为衡量幻觉只需一个好的评测,然而现有好的幻觉评测在众多奖励猜测的传统基准评测面前收效甚微,需重新设计主流评估,奖励模型表达不确定性。

© 版权声明

相关文章