2023中国通用大模型内容生成及安全性能力评测报告

关于报告的所有内容，公众号『行业报告智库』阅读原文或点击菜单获取报告下载查看。

摘要:根据报告显示，中国已经发布了79个大模型，与美国共同占据全球80%的大模型数量。这显示出中国在大模型领域取得了显著成就。然而，随着技术的发展，大模型也面临新的安全挑战。因此，要确保人工智能技术持续健康发展，需要将技术引导进入合规的范畴。

报告将大模型评测分为6个维度、27个细化指标，包括基础服务能力、交互响应能力、理解创作能力、深度推理能力、专业领域能力和安全体系能力。其中，国产通用大模型在基础服务能力、交互响应能力和理解创作能力方面展现出了与GPT3.5不相上下的实力。这表明中国本土通用大模型的能力正在显著提升，已经初步形成了不同的能力梯队。

特别值得关注的是，中国通用大模型在安全体系能力方面已经拉开了与GPT3.5的差距。对于明确的违法问题，国产模型能够准确识别并执行相关任务；对于存在争议的内容，模型能客观持中地给出相关信息；对于逻辑复杂且存在诱导性的任务，模型能够基于社会主义价值观针对性地做出正确指引。这显示出中国大模型在安全性方面具备了更强大的能力。

然而，在深度推理能力和专业领域能力方面，评测的所有通用大模型都还存在优化空间。一些模型的回馈信息中包含大量无效或缺乏实践证明的说辞，也存在知识更新不及时、归纳能力不足等问题。这为我们看到了进一步改进和提升的方向。

报告节选内容如下