关于报告的所有内容,公众号『行业报告智库』阅读原文或点击菜单获取报告下载查看。
AI幻觉,简单来说,就是模型生成与事实不符、逻辑断裂或脱离上下文的内容。它就像是模型一本正经地胡说八道。这种现象的出现,主要有以下几个原因。
数据偏差是导致AI幻觉的重要原因之一。训练数据中的错误或片面性会被模型放大。例如,在医学领域,如果训练数据中包含过时的论文,模型就可能会得出错误的结论。泛化困境也是一个关键因素。模型在处理训练集外的复杂场景时往往力不从心。比如,预测南极冰层融化对非洲农业的影响,模型就可能无能为力。知识固化也不容忽视。模型过度依赖参数化记忆,缺乏动态更新能力,对于2023年后的事件可能会完全虚构。意图误解也会引发AI幻觉。当用户提问模糊时,模型容易“自由发挥”,从而偏离用户的实际需求。
为了深入了解DeepSeek的AI幻觉情况,报告进行了多项评测。在通用性测试中,DeepSeekV3的幻觉率为2%,DeepSeekR1的幻觉率为3%。而在事实性测试中,DeepSeekV3的幻觉率为29.67%,DeepSeekR1的幻觉率为22.33%。相比之下,Qianwen2.5-Max的幻觉率为27.67%,豆包的幻觉率为19%。从这些数据可以看出,DeepSeek在幻觉率方面表现并不理想,尤其是在事实性测试中,幻觉率相对较高。
AI幻觉带来的潜在风险是多方面的。信息污染风险不容小觑。由于DeepSeek的低门槛和高普及度,大量AI生成内容涌入中文互联网,这无疑加剧了虚假信息传播的“雪球效应”,甚至可能污染下一代模型的训练数据。信任危机也可能由此产生。普通用户难以辨别AI内容的真实性,可能会对医疗建议、法律咨询等专业场景的可靠性产生长期怀疑。控制欠缺也是一个问题。DeepSeek的对齐工作较其他闭源大模型有所欠缺,其开源特性也允许使用者随意使用,可能会成为恶意行为的工具。安全漏洞也不容忽视。如果错误信息被用于自动化系统,如金融分析、工业控制等,可能会引发连锁反应。
从技术层面来看,RAG框架可以利用检索增强生成,先搜索权威数据库,再生成答案。外部知识库的结合也可以砍掉通用知识,强化垂直领域。精细训练针对不同任务类型进行具体的微调或强化,评估工具则可以开发高效的自动化AI幻觉识别工具,对生成内容进行及时验证。
从用户层面来看,普通用户也可以通过一些方法来应对AI幻觉。联网搜索可以显著降低幻觉率。在联网功能开启后,DeepSeekV3的通用性测试幻觉率从2%下降到0%,事实性测试幻觉率从29.67%下降到24.67%;DeepSeekR1的通用性测试幻觉率从3%下降到0%,事实性测试幻觉率从22.33%下降到19%。双AI验证或大模型协作也是一种有效的应对方式,通过利用其他大模型进行审查,相互监督,交叉验证。提示词工程也可以发挥重要作用。通过知识边界限定、对抗性提示等方法,可以降低虚构可能性,强制暴露推理脆弱点,让用户可见潜在错误路径。
尽管AI幻觉带来了诸多问题,但它也并非一无是处。AI幻觉具有一定的创造力价值。
在科学研究领域,AI幻觉可以成为“从零开始设计蛋白质”的关键。例如,大卫·贝克团队利用AI“错误折叠”启发新型蛋白质结构,获得了2024年诺贝尔化学奖。在文艺与设计领域,AI幻觉可以突破人类思维定式,成为“超现实引擎”。AI生成的虚拟环境和角色设计为游戏开发人员提供了无限的可能性,增强了玩家的沉浸感和探索欲。在技术创新领域,AI幻觉也可以从“缺陷”转化为方法论。例如,DeepMind团队发现,AI在图像分割任务中产生的“超现实边界”虽不符合真实场景,却意外提升了自动驾驶系统对极端天气的识别精度。