关于报告的所有内容,公众号『行业报告智库』阅读原文或点击菜单获取报告下载查看。
大模型对文本的处理方式与人类不同,需要将文本切割成 Token 的基本单元。例如,对于英文单词 “illegal” 中有几个字母 “l” 的问题,有些模型会回答错误,但 DeepSeek R1 推理模型却能给出正确答案。这得益于其精细的 token 化处理,让模型能够更准确地理解和处理文本信息。
DeepSeek R1 虽然在 2025 年 1 月发布,但其知识库截止日期是 2023 年 12 月。这意味着 DeepSeek 可以提供在此日期发布之前的公开信息和常识,但对于之后的新闻、事件变化、新事物则无法直接获取或验证。为解决这一问题,DeepSeek 开启了联网模式,或在提示词中补充说明,以获取最新的信息。
目前 AI 大模型不知道自己是谁,也不知道自己采用什么模型。DeepSeek 也不例外。除非厂商在后期再微调或再训练,否则当被问到类似问题时,模型可能会回答错误。因此,少问 AI 是谁、采用什么模型,是使用 DeepSeek 时的一个小技巧。
AI 大模型的记忆力有限,DeepSeek R1 提供 64k token 上下文长度,对应中文大约 3 万 至 4 万字。这意味着不能一次性投喂太长的文档给它,如一本完整的《西游记》或非常长的文档让它翻译。解决办法是分成多次投喂,以确保模型能够完整处理信息。
AI 大模型的回答长度也有限制,DeepSeek 无法一次性完成万字长文或一次性输出 5 千字。如果需要输出长文,可以尝试先让模型生成一个目录,然后再根据目录输出对应模块;如果是长文翻译类,则多次输入,或者拆解后多次调用 API。这种任务分解的方式,能够有效解决模型输出长度限制的问题。
DeepSeek 在模型架构上进行了多项创新。其采用 MLA 多层注意力架构、FP8 混合精度训练框架、DualPipe 跨节点通信等技术,大大提升了训练效率。MLA 架构通过低秩键值联合压缩技术,减少了推理过程中的缓存占用,提高了推理效率;FP8 混合精度训练框架则通过优化计算精度,降低了训练成本;DualPipe 跨节点通信技术优化了分布式训练的效率,使计算和传输能够同时进行,提升了训练速度。
在数据处理方面,DeepSeek 采用多模态数据清洗和领域渐进式微调策略,确保了数据的高质量和领域适配性。多模态数据清洗能够去除数据中的噪声和冗余信息,提高数据的纯净度;领域渐进式微调则通过在预训练阶段嵌入领域知识,减少了后期微调的成本,使模型能够更好地适应不同领域的具体需求。
DeepSeek 的开源策略是其一大亮点。其全量开源了完整训练代码、数据清洗 Pipeline 和领域微调工具包,极大降低了复现和二次开发的门槛。DeepSeek 还提供模型压缩工具,如 4-bit 量化适配 TensorRT-LLM,支持轻量化部署。这种开源生态的建设,不仅吸引了大量开发者参与贡献,还推动了整个行业的发展。
DeepSeek 在多个行业实现了落地应用。在金融领域,其通过多模态图神经网络和动态对抗训练技术,能够实现智能风控,帮助金融机构减少年损失达亿元级;在教育领域,其智能辅导系统通过多模态交互和认知诊断技术,为学生提供个性化的学习路径,提高了学生的学习效率;在医疗领域,其影像辅助诊断系统通过多模态数据融合和深度学习技术,能够实现早期癌症检出率的提升。
尽管 DeepSeek 取得了显著的技术突破,但仍面临一些挑战。其长上下文理解能力目前最大支持 32K tokens,相比 Claude 的 100K 仍有差距;多模态扩展方面,尚未开放图像 – 文本联合模型,需追赶 GPT-4V、Gemini 等。商业化平衡也是一个挑战,开源模型可能导致企业版变现困难,需探索类似 Red Hat 的 “开源 + 服务” 模式。
要高效使用 DeepSeek,首先需要了解清楚大语言指令模型、推理模型的工作原理与局限。在与 DeepSeek 交流时,应将其视为一位极其聪明、超过 10 年工作经验的助理,明确表达自己的诉求。如果需要分析的是 2023 年 12 月之前的信息,不太需要联网模式;如果是近期或实时新闻事件,则需要开启联网模式。
要提供具体信息,结构化描述问题。将复杂问题拆解为多个小问题,或列出关键点,包括自己的角色、问题的具体场景、目标、限制条件等。避免模糊的指令、过于宽泛的问题、矛盾或不切实际的要求等,以确保 DeepSeek 能够准确理解并给出有效的回答。