2023中国通用大模型内容生成及安全性能力评测报告

关于报告的所有内容,公众号『行业报告智库』阅读原文或点击菜单获取报告下载查看。

摘要:根据报告显示,中国已经发布了79个大模型,与美国共同占据全球80%的大模型数量。这显示出中国在大模型领域取得了显著成就。然而,随着技术的发展,大模型也面临新的安全挑战。因此,要确保人工智能技术持续健康发展,需要将技术引导进入合规的范畴。

报告将大模型评测分为6个维度、27个细化指标,包括基础服务能力、交互响应能力、理解创作能力、深度推理能力、专业领域能力和安全体系能力。其中,国产通用大模型在基础服务能力、交互响应能力和理解创作能力方面展现出了与GPT3.5不相上下的实力。这表明中国本土通用大模型的能力正在显著提升,已经初步形成了不同的能力梯队。

特别值得关注的是,中国通用大模型在安全体系能力方面已经拉开了与GPT3.5的差距。对于明确的违法问题,国产模型能够准确识别并执行相关任务;对于存在争议的内容,模型能客观持中地给出相关信息;对于逻辑复杂且存在诱导性的任务,模型能够基于社会主义价值观针对性地做出正确指引。这显示出中国大模型在安全性方面具备了更强大的能力。

然而,在深度推理能力和专业领域能力方面,评测的所有通用大模型都还存在优化空间。一些模型的回馈信息中包含大量无效或缺乏实践证明的说辞,也存在知识更新不及时、归纳能力不足等问题。这为我们看到了进一步改进和提升的方向。

报告节选内容如下

 

免责声明:本平台只做内容的收集及分享,报告版权归原撰写发布机构所有,由『行业报告智库』通过收集整理,如涉及侵权,请联系我们删除;如对报告内容存疑,请与撰写、发布机构联系。

 

 ㅤㅤㅤㅤㅤㅤㅤㅤㅤㅤㅤㅤㅤㅤㅤㅤㅤㅤㅤㅤㅤㅤㅤㅤㅤㅤㅤㅤㅤㅤㅤㅤㅤㅤㅤㅤㅤㅤㅤㅤㅤㅤㅤㅤㅤㅤㅤㅤㅤㅤㅤㅤㅤㅤㅤㅤㅤㅤㅤㅤㅤㅤㅤㅤㅤㅤㅤㅤㅤㅤㅤㅤㅤㅤㅤㅤㅤㅤㅤㅤㅤㅤㅤㅤㅤㅤㅤㅤㅤㅤㅤㅤㅤㅤ

社交账号快速登录