资讯

【高新产业链观察】DeepSeek模型创新技术路线,推动我国人工智能产业跨越式发展

新华财经 2025-02-13 10:34

新华财经北京2月13日电(分析师刁倩)2025年春节前夕,DeepSeek作为中国本土科创企业的代表,推出开源通用人工智能模型DeepSeek-V3和R1系列。该模型一经推出,其创新技术路线所带来的低成本、高性能引全球关注。本次DeepSeek在模型层面的突破,折射出我国AI产业从“技术跟跑”到“技术并跑”的跨越式发展,正深刻改变中国人工智能产业的发展格局。

一、DeepSeek春节推出R1模型,技术优化与低成本优势引全球瞩目

国产开源大模型DeepSeek于春节前夕推出R1模型。2025年1月20日,幻方量化旗下AI公司深度求索(DeepSeek)正式发布DeepSeek-R1模型。在数学、代码、自然语言推理等任务上,该模型性能比肩OpenAI o1正式版。DeepSeek表示,R1在后训练阶段大规模使用了强化学习技术,在仅有极少标注数据的情况下,极大提升了模型推理能力。有分析指出,DeepSeek在推理能力上与OpenAI的GPT-4相媲美,在解决数学难题、分析复杂的法律条文等方面展现出强大的实力。据北京日报,2月8日QuestMobile数据显示,DeepSeek在1月28日的日活跃用户数首次超越豆包,随后在2月1日突破3000万大关,成为史上最快达成这一里程碑的应用。

传统观点认为,AI性能提升依赖参数和算力的增加,而DeepSeek通过算法优化证明,高效架构与训练策略同样能实现高性能,其技术优化引全球瞩目。浙江财经大学人工智能研究院院长张文宇指出,DeepSeek的破局之道在于“四两拨千斤”,其研发团队通过把数据进行总结和分类,经过选择性投喂与处理之后,输送给大模型,提高了训练效率。

IBM院士(IBM Fellow) Kush Varshney对此表示,“真正令人印象深刻的是DeepSeek模型的推理能力。推理模型本质上是自我验证或检查,代表了一种‘元认知’或‘关于思考的思考’。 我们正开始将智慧融入到这些模型中,这是巨大的进步。”

在算力方面,张文宇表示,面对美国芯片禁令,其研发团队对低配版GPU集群(甚至多源异构算力)进行智能管理,对CPU、GPU甚至边缘计算设备进行协同调度,打破了“大力才能出奇迹”的算力魔咒。

算力的优化也带来了DeepSeek的低成本优势。据DeepSeek技术报告,DeepSeek-V3的训练成本仅为557.6万美元,训练使用的是算力受限的英伟达H800 GPU集群(使用2048块H800 GPU)。该成本远低于OpenAI的GPT-4(1-2亿美元)和谷歌的Gemini(2亿美元)。同时,DeepSeek不仅将R1训练技术全部公开,还蒸馏了6个小模型开源给社区,允许用户借此训练其他模型。API价格方面,每百万输入tokens 1元(缓存命中)/4元(缓存未命中),每百万输出tokens 16元,较o1正式版低27-55倍。这种成本控制能力不仅为中国企业提供了战略优势,还可能迫使国际巨头调整技术路径和定价策略。

二、我国人工智能产业快速发展,DeepSeek在核心技术层崭露头角

近年来,我国加大对人工智能产业的顶层设计以及政策支持。2022年8月,科技部发布《关于支持建设新一代人工智能示范应用场景的通知》,旨在充分发挥人工智能赋能经济社会发展的作用,支持一批基础较好的人工智能应用场景。2022年12月,中共中央、国务院印发《扩大内需战略规划纲要(2022-2035年)》,明确要求“推动人工智能、先进通信、集成电路、新型显示、先进计算等技术创新和应用”,为人工智能产业的发展提供长期规划指导。2024年1月,工信部等七部门发布的《关于推动未来产业创新发展的实施意见》,明确利用人工智能等技术精准识别和培育高潜能未来产业,支撑推进新型工业化。同时,安全监管与创新发展并重。2023年5月,国家网信办、国家发展改革委等七部门发布《生成式人工智能服务管理暂行办法》,对生成式人工智能服务实施包容审慎和分类分级监管,规范行业发展秩序。

从产业链情况来看,人工智能产业包含了基础层、技术层和应用层,其中最核心是技术层。人工智能产业的技术层涵盖了算法、模型、数据处理等一系列核心技术,比如机器学习、深度学习和自然语言处理等,是推动人工智能发展的关键。相比之下,基础层虽然为人工智能提供底层支撑,包括计算资源、数据资源和基础软硬件等,但并不直接构成人工智能的核心‌。而应用层则是人工智能技术的最终体现,将人工智能技术应用于各个领域,如智能制造、智能家居、智慧医疗等,更多地是依赖于技术层提供的核心技术支持。因此,技术层作为人工智能产业链的核心,对于推动整个人工智能产业的发展具有至关重要的作用。

00cec884b466433da3ce148ae1b33dd4.jpeg

我国人工智能的发展更侧重于应用层技术,“人工智能+”与千行百业深度融合,成为经济转型升级的新支点。据工信部数据显示,2024年底,我国人工智能核心产业规模接近6000亿元,这表明我国在AI应用层已经实现全面领跑。目前,我国人工智能技术已在安防监控、智能家居及教育培训等领域落地生根,图像识别、语音识别、自动驾驶等专利数量和商业化落地能力也非常突出。但在基础层和技术核心层,比如芯片架构和核心算法仍依赖进口,国产AI芯片虽进步显著,但整体技术水平与国外差距较大。

本次DeepSeek在模型层面的突破,是我国本土科创企业在人工智能产业核心领域的崭露头角。浙江财经大学信息技术与人工智能学院院长张帅表示,与OpenAI、智谱、百度等打造“全能大模型”的方式不同,DeepSeek的突破在于重新定义技术路线,并进行了基于群智协同的系统级工程优化,主要包括混合专家模型、负载均衡、多头潜在注意力机制、大小模型协同、强化学习推理,以及诸如FP8混合精度和负载均衡、通信优化、内存优化、计算优化等工程优化方法。

三、上下游产业链加速适配,DeepSeek推动我国AI产业跨越式发展

DeepSeek让AI迎来了“破圈”时刻,上下游产业链企业迅速行动起来。首先是云厂商,自2月1日起,华为云、阿里云、百度智能云、字节火山引擎、腾讯云等国内主要云厂商纷纷宣布上线DeepSeek模型,面向开发者和企业客户提供模型部署服务,降低了企业AI应用门槛。紧随其后的是各大国产芯片厂商。目前已有十数家国产芯片宣布完成了对DeepSeek模型的适配和上线,包括沐曦、天数智芯、摩尔线程、壁仞科技等。由于DeepSeek打破了对高算力的约束限制,国产芯片的利用率将会得到极大的提升,对于芯片产业都是重大利好。

随着中上游的积极部署,下游的AI应用层也开始行动起来。智能硬件、汽车、金融等各行各业都在积极接入DeepSeek模型,希望借助其能力来升级自身服务。在金融领域,国泰君安国金证券中泰证券兴业证券国元证券、华福证券等多家券商陆续官宣,已完成DeepSeek-R1模型的本地化部署。在医疗领域,恒瑞医药、医渡科技等多家医疗公司宣布“牵手”DeepSeek,推动AI医疗加速落地。在制造领域,海尔集团已完成DeepSeek大语言模型和多模态模型的集成,并提供企业私有化部署解决方案,加速企业数字化转型。在通讯领域,中国移动中国电信中国联通三家基础电信企业均全面接入DeepSeek开源大模型,实现在多场景、多产品中的应用。

张文宇指出,DeepSeek的成果标志着我国AI大模型首次与国际顶尖水平并驾齐驱,更折射出我国AI产业从“技术跟跑”到“技术并跑”的跨越式发展。但他也指出,虽然我国在AI应用层处于国际领跑,在AI技术层处于国际并跑,但在AI基础层仍处于国际跟跑。无论是OpenAI还是DeepSeek,它们都基于美国谷歌公司在2017年提出的Transformer架构,因此皆不属于“从0到1”的颠覆性基础理论创新,均属于“从1到100”的大规模工程整合创新。

张文宇表示,DeepSeek的创新是包含了一种从架构设计到工程优化的全流程、系统级技术突破与创新。DeepSeek的启示在于:中国AI的崛起,本质上是一场大规模系统级工程创新的胜利。它证明在既有技术框架下,通过工程优化与路径创新,完全可能实现局部超越。但真正的“领跑”,仍需攻克基础层的“卡脖子”难题——从Transformer到下一代AI架构,从数据标注标准到算力芯片自主,每一个“从0到1”的突破都将重塑全球AI的竞争格局。

目前,中国在AI应用层和市场规模上已形成独特优势,尤其在行业赋能和商业化效率上领先;但国外在基础技术、全球产业链控制力和高端人才方面仍占主导。未来竞争焦点将集中在基础技术突破(如量子计算与AI芯片)、国际标准制定权及数据治理规则上。这需要中国科技人才在基础研究、特别是“从0到1”的基础创新上付出更多的定力、花费更大的功夫。

DeepSeek模型创新技术路线,推动我国人工智能产业跨越式发展.pdf

 

编辑:杜少军

 

声明:新华财经为新华社承建的国家金融信息平台。任何情况下,本平台所发布的信息均不构成投资建议。如有问题,请联系客服:400-6123115

去新华财经APP看全文

确定 取消