网站首页 | 网站地图

大国新村
首页 > 经济金融 > 科技视野 > 正文

以算力为基,算法为翼,中国国产大模型以提质增效——

锚定AI普惠“新坐标”

2024年12月15日,上海国家会展中心,青少年选手参加全球青少年人工智能竞赛全球总决赛。

张明伟摄(人民图片)

2024年12月27日,在广东省深圳市笔架山公园里,小朋友和家长一起使用智能互动屏锻炼身体。

新华社记者 梁 旭摄

2024年12月10日,在江苏省苏州市国际博览中心,观众在2024全球人工智能产品应用博览会上体验手写翻译系统。

张从余摄(人民图片)

2024年9月19日,在浙江省杭州市,参观者在2024杭州云栖大会上参观了解相关的AI技术。

龙 巍摄(人民图片)

今年年初,在世界经济论坛2025年年会开幕当天,一款由中国初创企业——杭州深度求索人工智能基础技术研究有限公司(以下简称“DeepSeek”)发布的开源模型DeepSeek—R1惊艳了世界。

这一模型在技术上实现了重要突破——用纯深度学习的方法让AI(人工智能)自发涌现出推理能力。高性价比是该模型的优势。据该公司介绍,DeepSeek—R1在后训练阶段大规模使用了强化学习技术,在仅有极少标注数据的情况下,极大提升了模型推理能力,用较低的成本达到了接近于美国开放人工智能研究中心(OpenAI)开发的GPT—o1模型的性能。

不鸣则已,一鸣惊人。DeepSeek的成功,破解了全球人工智能产业长期以来对“堆算力”的路径依赖,引发了人工智能领域的“一场地震”。业界人士认为,DeepSeek模型是“一座里程碑”,有望激发一波创新浪潮,推动全球AI继续进步。

近年来,以DeepSeek为代表中国国产大模型正在加快发展步伐。随着产业链条的完善、使用场景的丰富、市场空间的打开和人才储备的拓展,中国国产大模型正在形成从技术到应用,再从应用反哺技术创新的完整闭环。以算力为基,算法为翼,如今,中国国产大模型正通过提质增效的方式锚定AI普惠“新坐标”。

创新:

“小力创造奇迹”

作为一家专注通用人工智能(AGI)的中国科技公司,DeepSeek主攻大模型研发与应用。DeepSeek—R1是其开源的推理模型,擅长处理复杂任务且可免费商用。

DeepSeek—R1模型能做什么呢?

它可以直接面向用户或者支持开发者,提供智能对话、文本生成、语义理解、计算推理、代码生成补全等应用场景。DeepSeek—R1支持联网搜索与深度思考模式,同时支持文件上传,能够扫描读取各类文件及图片中的文字内容。

如果用一句话总结DeepSeek—R1的技术特点,那便是“小力创造奇迹”。

DeepSeek模型既具备基础模型的广泛适应性,又以推理模型的精准性重塑行业标准。DeepSeek的API(软件系统间交互的标准化接口,允许开发者调用其他系统功能而无需理解内部实现细节)价格远低于海外头部大模型,其低成本策略推动了AI技术从“奢侈品”向“日用品”转型。

2024年12月底,DeepSeek发布V3模型,其性能与海外头部大模型相近,但训练成本极低,整个训练在2048块英伟达H800 GPU(图形处理器)集群上完成,训练成本550多万美元。相比之下,训练GPT—4o等模型,至少要使用上万块性能更为优越的H100 GPU,训练成本达到约1亿美元。DeepSeek这个土生土长的中国大模型用自己的成功证明:AI大模型的比拼或许并不只靠规模,更重要的是看实际效果。有句话形象地概括出DeepSeek的优势:“不是GPT用不起,而是DeepSeek更有性价比。”

更为引人关注的是,DeepSeek在架构效率上的提升幅度。通过算法创新,如GRPO(一种专为优化大型语言模型设计的强化学习算法)优化策略,DeepSeek打破了大模型训练的“算力依赖”。相比海外头部大模型,DeepSeek采用混合专家模型,可将任务拆分给多个专用子模块处理,资源利用率更高,大幅降低了大模型训练所需的算力要求。

与海外大模型相比,DeepSeek训练数据以汉语为主,对复杂的汉语词汇和语境处理更为精准,使其文字输出更为流畅自然,符合汉语环境。同时,它的逻辑推导过程透明,并支持针对特定场景的深度优化。

不同于先发者的闭源式“护城堡垒”,DeepSeek赢得赞誉的还有它的开源路线。DeepSeek将代码、模型权重和训练日志全部公开,降低了中小企业部署AI的门槛,这一举动不仅需要格局,更需要勇气与实力。

“在颠覆性技术面前,闭源形成的护城河是短暂的。即使OpenAI闭源,也无法阻止被别人赶超。”DeepSeek创始人梁文锋这样解释选择开源的原因,“开源、发论文,其实并不会失去什么。对于技术人员来说,被follow(追随模仿)是很有成就感的事。”

英国《金融时报》的对此评论称,开源模型DeepSeek—R1对全球用户产生极大吸引力,有利于推动人工智能技术的开发和应用。文章说,对于大多数商业用户来说,拥有一款足够可靠并且好用的模型比拥有绝对领先的模型更重要。“并不是每个司机都需要一辆法拉利。像R1这样模型的推理能力进步,可能会为与客户互动或处理工作任务的‘智能体’带来突破性变化”“如果能以更低的成本拥有这些模型,企业的盈利能力将提升”。美国云软件企业赛富时公司的人工智能可持续发展主管鲍里斯·加马扎伊奇科夫认为,DeepSeek推动了人工智能降低能耗的步伐。“它是开源的,其用户不必预先训练一个类似大小的模型,而是可以从已有模型开始(研发),这样可以节省大量能源。对全世界来说,这是一件非常好的事情,我希望看到更多像这样的开源创新。”

开源生态里,每一行代码都是创新的火种;协同创新中,每一个企业都是生态的支点。近日,全球知名开源平台抱抱脸公司等多个团队已宣布复现了DeepSeek—R1的训练过程。

通过底层架构创新降低AGI成本,同时以开源策略构建生态护城河,DeepSeek提供了中小型机构突破算力限制的可行路径。

“DeepSeek出圈,很好地证明了我们的竞争优势:通过有限资源的极致高效利用,实现以少胜多。中国与美国在AI领域的差距正在缩小。”面壁智能首席科学家刘知远说。

使命:

“探索未知之境”

一直以来,驱动DeepSeek的目标并非利润而是使命。正如其公司之名深度求索,“探索未至之境”既是这帮中国本土年轻科技工作者的愿景,也是他们雄心。

“中国也要逐步成为贡献者。”梁文锋说,“我们已经习惯摩尔定律从天而降,躺在家里18个月就会出来更好的硬件和软件,Scaling Law(规模定律)也在被如此对待。但其实,这是西方主导的技术社区一代代孜孜不倦创造出来的,只因为之前我们没有参与这个过程,以至于忽视了它的存在。很多国产芯片发展不起来,也是因为缺乏配套的技术社区,只有第二手消息,中国必然需要有人站到技术的前沿。”

“我们创新缺少的不是资本,而是信心,以及组织高密度人才的能力。”梁文锋说。

从技术到愿景,DeepSeek坚定选择的始终是一条难且正确的路。这也是为什么,即便别国在人工智能领域已坐享先发优势,后发者依然有机会凭借技术创新、成本优化打破大模型竞争的传统逻辑,打破人工智能行业竞争格局,打破“他国更擅长从0到1的原始创新,而中国更擅长从1到10的应用创新”的成见,重塑竞争优势的奥秘。

随着AI浪潮的袭来,中国科技工作者一直在追梦。“追”不仅仅是“跟”,目的在“超”。不仅是DeepSeek的科研团队,还有更多的科技工作者推动原始创新和颠覆性创新,脚踏实地潜心研究关键核心技术,以科技创新锻造新质生产力。

1月15日,科大讯飞发布了当前全国产算力平台上唯一的深度推理大模型——讯飞星火X1。该模型中文数学能力国内第一,并率先应用于教育、医疗等刚需场景。发布会上,科大讯飞研究院的研究员们依次展示了讯飞星火X1解答高考题以及高中奥赛题的表现。讯飞星火X1不仅准确给出了这些题目的答案,还对解题思路和步骤进行了详细拆解。与通用大模型相比,其解题过程更接近人类的“慢思考”方式。

“一直以来,讯飞星火坚持走全国产化路线。”科大讯飞相关负责人对记者说,“尽管在全国产算力平台上训练深度推理模型遭遇了诸多挑战,但科大讯飞携手华为,成功攻克了训练推理强交互、高吞吐推理优化以及国产算子优化等一系列难题。”

其他中国公司在其大模型性能方面也取得巨大进步。2024年底,阿里巴巴和腾讯投资的创业公司月之暗面表示,自己开发了一个专门研究数学的模型,性能接近海外头部大模型。月之暗面创始人杨植麟说:“公司专注于强化学习,也就是模仿人类的试错过程。这种方法或许能够在提升模型性能的同时不需要那么多的算力。”

2024年12月,字节跳动的豆包系列多款大模型选择在上海首发,涉及视觉理解、3D生成等领域。“豆包视觉理解模型能精准识别视觉内容,且具备出色的理解和推理能力,可根据图像信息进行复杂的逻辑计算,完成分析图表、处理代码、解答学科问题等任务。”火山引擎总裁谭待说。首次亮相的还有豆包3D生成模型。如同一套支持AIGC(人工智能生成内容)创作的物理世界仿真模拟器,该模型与云服务平台火山引擎的数字孪生平台结合使用,可以完成智能训练、数据合成和数字资产制作。

近年来,中国AI技术人才的创业信心也在不断提高。国家互联网信息办公室近期发布的信息显示,截至2024年12月31日,共有302款生成式人工智能服务在国家网信办完成备案,其中2024年新增238款备案。

根据《2024年度人才迁徙报告》,AI相关岗位需求在2024年激增,算法工程师、大模型算法等职位位列热招榜前20。技术岗位平均月薪前十名中,大模型相关岗位占据半数。

“热爱、扎实的基础能力,是我们招人的标准。”梁文锋说,自己在招聘时会挑选并培养几乎没什么工作经验的中国顶尖大学应届毕业生,“创新需要信心,而年轻人往往更有信心。”

应用:

“全家齐玩AI”

近日,广东省深圳市龙岗区在区政务外网成功部署上线了DeepSeek—R1全尺寸模型(含6710亿参数),并于2月11日在龙岗区“龙i企”企业服务小程序正式上线DeepSeek AI助手功能,为企业提供更加智能、便捷的政务办理、在线咨询、政策解读等高效智能政务服务。

据悉,“龙i企”接入DeepSeek AI助手功能后,依托海量的政府政策资讯以及政务办理信息,运用先进的自然语言处理和机器学习技术,为企业用户打造了全方位、智能化的服务体系。企业用户只需登录“龙i企”小程序端,在首页点击“龙i企AI助手”,即可便捷体验各类贴心的企业服务。

“AI+”政务服务,是人工智能赋能千行百业的一个缩影。对大模型而言,训练成本每降1个百分点,产业应用便能拥有更多可能。

今年以来,大众的AI参与感、讨论度、情绪值一齐攀升,“全家老少一起玩AI”成为潮流。百度方言语音搜索的日均调用量中,河南、四川等地下沉用户占比越发凸显,文旅智能体在县域旅游的使用率也在上升。而就在去年此时,引发AI热潮的还是尚未出圈的Sora(海外文生视频模型),只在从业者小圈子里引发了热议。

截至2024年11月,百度文心大模型的日均调用量超15亿次,较2023年增长约30倍。截至2024年12月,豆包通用模型日均tokens(将文本分割为一个个有意义的片段)使用量超4万亿,较7个月前首发时增长33倍。截至2025年1月,百度文库AI功能月活用户突破9000万,同比增长230%。2025年2月,DeepSeek登顶全球140个国家及地区的应用市场,DeepSeek的日活跃用户数突破3000万大关……一根根陡峭的增长曲线中,我们可以看见大模型的“真需求”。

DeepSeek的持续破圈,“点燃”了中国AI产业链。云服务厂商、互联网平台企业纷纷接入,AI应用等产业链企业竞相使用。

不少产业链中上游企业争相“抢滩”DeepSeek。此前,腾讯云、阿里云、百度智能云、火山引擎等国内云计算企业已宣布对DeepSeek的支持。十余家国产AI芯片企业也相继宣布,适配或上架DeepSeek模型服务。

与此同时,包括汽车、金融、智能硬件等不少产业链下游企业,也持续展开对DeepSeek系列模型的应用探索。随着需求与场景的不断满足,更多搭载轻量化AI模型的创新型智能硬件密集涌现。

其中,PC外设硬件的接轨速度较快,如部分“AI鼠标”“AI键盘”,可一键拉起其提供的AI问答页面,其中包含基于DeepSeek-R1的深度思考选项。AI PC、AI手机同样是这次DeepSeek浪潮的受益者,如联想、华为等品牌,已在其AI智能体中接入了DeepSeek,提供“开箱即用”的AI功能。

眼下,DeepSeek掀起的热潮还在持续,“朋友圈”加速扩容,进一步激活人工智能产业链上下游。目前,中国移动、中国联通、中国电信等三大运营商均宣布接入DeepSeek模型。与此同时,北京宝兰德软件股份有限公司等公司宣布接入文心一言大模型、上海风语筑文化科技股份有限公司等公司宣布接入豆包大模型。

“面向未来,人工智能有三大主战场:人工智能科学化、计算系统智能化、应用领域广谱化。一个影响深远的智能时代,正在向我们走来。”刘知远说。

[责任编辑:曲统昱]