找回密码
 注册
搜索
热搜: 活动 交友
查看: 109|回复: 0

从业内角度评 DeepSeek 的真实影响

[复制链接]

93

主题

0

回帖

1038

积分

金牌会员

积分
1038
发表于 2025-1-30 00:39:04 来自手机 | 显示全部楼层 |阅读模式
从业内角度评 DeepSeek 的真实影响

中国发布了 DeepSeek 大语言模型,以其低成本和高评分造成了巨大影响。特别是它使用的不是最先进GPU芯片,表面上看 DeepSeek 的成功显示了中国有能力在美国的芯片封锁下突破 AI 大模型的垄断,英伟达和台积电的重要性降低,它们的股票也因此大跌。另一方面又有相关人士爆料 DeepSeek 事实上通过不正当方式拥有大量最先进的芯片。网上舆论也有很多人并不了解具体技术,仅从反对中共的出发点就论断 DeepSeek 肯定是作弊或撒谎。

我正好从事 AI 研究与应用领域的工作,了解大语言模型的底层技术,也已研读 DeepSeek 发表的技术论文。我打算从业内角度评论 DeepSeek 的真实价值及其可能造成的影响,以正视听。

首先我们要厘清一些概念。

大语言模型的成本

DeepSeek 之所以引起业界震荡是因为它的优化算法大幅度降低了模型训练的成本。也就是说训练该模型所需要的总体计算量大大降低。这样有两个好处:其一,总体费用降低。DeepSeek 在论文中宣称其模型训练在租用芯片算力上的花费为五百多万美元,而海外其他公司类似规模模型的训练开销一般为数千万美元。其二,由于总体计算量的减少,可以在较低端芯片上在较短时间内完成训练。论文中宣称 DeepSeek 训练使用的是 H800 芯片,这种芯片是英伟达配合美国对中共芯片制裁而设计的中国特供版,基于海外最先进的 H100 芯片做了技术劣化,在运算速度上大打折扣。由于更先进的算法,DeepSeek 得以在 H800 芯片上只用两个月就完成训练。如果使用竞争对手的算法,多花钱还是次要的,运算时间远超对手的话那中国就不可能取得优势。这一点对于受到芯片制裁的中国更为重要。

训练成本只是大模型总体成本的一部分。模型最终目的是要应用,而部署应用也需要强大的算力。部署的算力直接正比于模型大小和用户数量,这是不能仅凭算法优化就大规模缩减的。打个比方,训练模型所需的算力好比研发产品所需的实验设备和耗材,而部署模型则相当于产品大规模投产后所需要的生产线和物料。减少模型训练成本相当于用更为合理的实验设计达到减少实验次数和消耗来完成研发。但是一旦投产之后,如果客户需求量增加那就只能靠增加产线来提高产量了。

好在模型部署一般不需要最高阶芯片,低端芯片只要数量足够也是可以撑得起来的,所以对于中国来说部署模型暂时不太受到芯片制裁的约束。但是就算低端芯片如 H800 之类,也还是英伟达的产品,中国自己照样是无法国产的。所以那些 DeepSeek 让中国 AI 摆脱英伟达限制的说法纯属无稽之谈。

DeepSeek 是开源模型

这一点非常重要,但是首先要搞清楚开源模型的概念。很多人以为开源就是一切透明,算法中的每一行代码每一条数据都公之于众,这是错误的。模型的开源指的仅仅是完成训练的最终模型可以自由的复制和使用,而训练所用的算法和数据并不公开。

当前大模型市场已经分成了开源和闭源两大阵营。闭源阵营的玩家主要有 OpenAI 的 GPT 系列模型,谷歌的 Gemini 系列模型,还有 Anthropic 的 Claude 模型等。开源的主要模型则有 Meta 的 Llama 系列,谷歌的 Gemma 系列,还有来自中国的 Qwen (千问)和新进的 DeepSeek 。

一般来说闭源模型强于开源模型。选择闭源的公司都是因为其模型包含机密技术,他们通过闭源来保持模型的竞争优势来获取商业回报。闭源模型不能本地部署(不能下载到自己的电脑上断网运行),用户只能购买权限后远程连接到官方服务器上使用。而开源模型则支持本地部署,当然也可以使用官方服务。有一些单位(如银行)出于保护数据安全的需要不允许使用远程服务,所以他们只能选择开源模型部署在内部电脑系统之中。开源模型还有一个好处就是用户可以继续对模型进行训练,让模型能够更好地解决有针对性的问题。

中国开发并在国际市场占据一席之地的模型都是走开源路线,实际上是因为他们只能走开源路线。因为众所周知的原因,中国的闭源模型只能部署在国内,用户使用产生的一切数据都会受到中共政府审查,所以根本不可能获得海外公司和政府客户的使用。我就有同事(非中国人)个人充值了中国某模型的帐户,结果没过几天就被封禁,甚至他关联的电话号码和信用卡也无法再次在这个平台开户和充值。他说可能就是因为他提的问题中出现“天安门”次数过多所致。在这种情况下,中国要保持在国际 AI 市场和学术界的影响力就只能开源。

此次 DeepSeek 作为开源模型,不但宣称在训练成本上远低于 OpenAI 和谷歌等闭源模型主流玩家,而且在推理、数学和编程等方面的能力评分甚至超过这些闭源模型,因此才在西方业界引起震动。

DeepSeek 的成就解读

DeepSeek 的主要成就有两方面:其一,低训练成本;其二,逻辑推理能力卓越。但是这两个成就其实是完全独立的,我们应当分开来做评价。

低训练成本指的是让模型从零开始获得对语言的理解和交流能力,以及基本常识认知的过程。拿人来比喻,就相当于教婴儿说话,学会基本生活能力的过程。为了尽可能减少训练时间,DeepSeek 对传统训练算法做了大量优化。理论上讲这些优化方式大都是在速度和效果之间寻找一个平衡。换句话说训练速度的提高是以训练成果的损失为代价的。这有点像速成班和传统教育方式的区别。当然这是理论,不能说现有的传统训练方法在模型最终效果上是最优的,所以有可能出现速度和效果双双提升的新训练机制。但是依据我个人对 DeepSeek 论文中方法描述的理解,他只是牺牲效果追求速度,没有根本性的创新。从多项标准化评分来看,DeepSeek 最新的 V3 (参数规模超7000亿) 模型在很多方面不如开源的 Llama 3 (参数规模超3000亿)模型。一般来说模型参数越多能力越强,DeepSeek 以超过两倍的参数体量却在多方面输给竞争对手,印证了我对他效果对速度妥协的分析。

逻辑推理能力的增强与前面说的低成本训练是不相干的两回事。模型的高级推理能力(内建逻辑链条,增加模型“思考”时间换取推理正确性)最早是 OpenAI 在其 GPT-o1 模型中展示的。OpenAI 将此技术列为机密,不但模型闭源,也没有发表论文解释技术细节。o1 模型的发表也曾震动业界,各大公司争相探索实现此能力的方法,包括谷歌等都获得了不错的成绩,他们的模型推理能力不但接近甚至超越 o1,而且能够提供思考过程,比 OpenAI 更加公开。

简单的说,让模型获得深度推理能力是对已经完成基本训练的模型进行后期强化训练或微调的一种方式。后期训练的计算量相比基本训练非常小,所以瓶颈并不在于高端芯片和算力成本。最重要的是训练所用的数据质量。为了让模型学会正确的推理,必须有大量不同难度且正确的推理范例充当训练数据。而网上能找到的公开数据,包括教科书、论文和代码都可能存在逻辑错误,质量很难保证,所以得大量依赖人工筛选和标注,有些问题还需要专家撰写中间步骤和推理过程,这是非常昂贵的。如何获得高质量的数据,如果让模型高质量地学习这些数据,这两点是模型后期训练的关键因素。

DeepSeek 模型的推理能力目前在很多标准测试排名中都做到了世界第一,这一点要肯定 DeepSeek 团队确实非常优异。他们在论文中阐述了改进的学习算法,但是对数据来源没有详细描述。DeepSeek 推理能力最强的模型是 R1,但最受关注的低成本模型是 V3。V3 也有不俗的推理能力,是通过蒸馏(distill)技术从 R1 模型转移而来。蒸馏技术简单说来就是把一个学有所成的模型当老师向另一个模型传授其擅长的技能。前面说过模型学习能力的关键是高质量样本数据,而教师模型恰恰就可以大量自动生成这样的数据,而且教师模型还可以对学生模型使用能力的结果做出评判,相当于批改作业给予反馈。蒸馏技术并非 DeepSeek 发明,通过此技术让 V3 获得近似于 R1 的推理能力并不意外。

现在舆论宣传 DeepSeek 用最少的成本开发出了最先进的模型,这种说法是不正确的。应当说他们用最少的成本训练出了一个还可以的模型 V3,然后用蒸馏方法(与成本无关)将 R1 的推理能力迁移其中。其实如果他们用蒸馏法将 R1 的推理能力迁移到 Llama 3 模型中,或许会得到一个在各方面都更强的模型。

DeepSeek 对 AI 业界的影响

DeepSeek 的模型确实优秀,但其意义更多是学术上的技术进步而已。

首先低成本模型训练很有学术价值,但实际意义并不是很大。因为开源的模型(如 Llama 3)已经足够优秀,直接拿来用就是,投入巨款(低成本也是500万美元起步)从零开始训练新模型的意义何在呢?何况低成本训练算法是以最终效果的妥协为代价的,训练出一个不如其它开源模型的模型,成本再低也无意义。

DeepSeek 选择从零开始训练自己的模型,多半是被中国特殊国情所迫。任何模型在中国运营,都必须受到政府审查,尤其需要确保模型回答问题符合中共的价值观和言论审查,所以国内无法商用西方训练的模型,无论开源还是闭源。很多人在试用 DeepSeek 模型时都发现了言论审查和价值观的扭曲,可以预见西方政府和企业绝不会使用 DeepSeek 模型,包括开源版本。

至于 DeepSeek 模型的推理能力重要性并没有大家想象的高。首先别人可以用蒸馏法将其迁移到其它开源模型中使用。另外蒸馏法加以人工筛选可以以低成本得到更为优质的训练数据,从而训练出推理能力更强的模型。事实上自从 o1 推理模型面世以来,其他推理模型出现的越来越快,评分也越来越高。DeepSeek 也只会是这个浪潮中的一片水花而已,虽然暂居榜首,但优势的保持可能只会是几个月甚至几周而已。

在我看来,DeepSeek 低成本训练算法的学术价值还是非常高的,因为它降低了新型底层架构的实验成本。当前的大语言模型底层还是基于十年前谷歌发表的 transformer 架构。那是一个可行的架构,但绝非完美,现在的主流架构已经在其基础上做了小幅改进。但是每次对底层架构做出改动,就需要从零开始重新训练模型,而一次实验就要上千万美元的成本让大家不敢轻易尝试。如今 DeepSeek 的优化算法让实验成本大幅度降低,显然会加快底层架构改进的速度。

这一点在中西方的 AI 竞争中对西方有利,因为西方有着更多的经费和更先进芯片。DeepSeek 的新算法可以让模型训练在 H800 芯片上两个月完成,那西方就可以用同样的算法在 H100 芯片上用少于一个月就完成。西方实验时间更短,实验次数更多,一定会在模型基础架构上占据优势。西方甚至可以用此实验设计出专门为此架构优化的专用芯片,进一步拉开与中国的差距。

这就是一个很有意思的现象:中国的 AI 技术要想获得世界关注就必须开源且公开算法,但他们一旦模型开源和公开算法后就立刻失去了优势,因为西方可以在更先进的硬件芯片上运行你的模型和算法。只要中国没有在硬件上取得优势,又不能取消审查机制,那中国的大模型在世界舞台上就永无出头之日,一切软件和算法方面的技术进步只要公开就是为他人做嫁衣裳。

DeepSeek 作弊和撒谎的争议

网上有很多对 DeepSeek 的争议言论。有人说 DeepSeek 实际上拥有超过一万片 H100 芯片。有人说 DeepSeek 的低成本模型实际上是通过蒸馏其他模型这种取巧的方法实现的。也有人说 DeepSeek 是中共夸张宣传的骗局。这里我从专业角度谈谈自己的看法。

首先我倾向于认为 DeepSeek 发表在技术论文中的算法和性能数据是真实的。原因很简单,别人可以验证。DeepSeek 目前在业界如此火爆,一定有很多厂商试图复现他们的算法并尝试做出进一步的改进。如果被发现论文造假那将是天大的丑闻。目前还没有西方主流厂商在技术上指责 DeepSeek 的算法,所以我认为论文还是可靠的。

但是论文和他们开源的最终模型不一定是一回事。前文说过开源模型并不开源训练用数据和训练过程,所以这个公开的模型完全可能是用不同于论文中的方法训练成的。比如说也许模型是在 H100 芯片上用一个月时间训练完成的,那么他们在论文中写用 H800 芯片耗时两个月也不会太离谱。至于训练数据来源和具体内容他们也没公布,也许真的包含从其它模型偷取的数据(以蒸馏的方式)也说不定。不过没有具体证据,只能存而不论。

DeepSeek 对中美政治和经济的影响

这一部分就纯属于非专业的个人观点。

首先网络上 DeepSeek 舆论的发酵明显有幕后推手运作的痕迹,他们试图让大众相信 DeepSeek 的成功代表中国在 AI 领域突破了美国的技术封锁,不但在软件上做到世界第一,而且在硬件上也不受制于美国的芯片封锁。英伟达和台积电的股票在 DeepSeek 现象影响下遭遇重挫,显示出中国的成功。

但从业内的观点来看,这两只股票的下挫是完全没有道理的。就算 DeepSeek 真的只是使用不受制裁的 H800 芯片,那也是英伟达的产品。无论 DeepSeek 成功还是失败,世界上对 AI 模型的需求是越来越大的,那么用于部署这些模型的硬件芯片需求也会越来越多,只会对英伟达有利而已。

有人说不用英伟达的芯片行吗?当今世界上 GPU 芯片厂商分为三个梯队,各自对应一家公司:第一梯队是英伟达,第二梯队是 AMD,第三梯队是英特尔。由于英伟达拥有独特的 CUDA 架构技术,目前 AI 模型训练部署几乎完全依赖英特尔芯片。就算后两家厂商能够后来居上,他们也全部都是受到美国政府制约的。无论 DeepSeek 使用谁的芯片,都无法逃避美国的芯片管制。中国国内厂商在这方面市场占有率为零,指望华为和中芯搞出用于 AI 的国产芯片至少在几年内是不可能的。

中美两国都将 AI 发展视为战略性关键技术,不能容许自己在该领域落后。川普上台后也十分重视 AI,从软银获得投资5000亿美元建设 AI 基础设施的承诺。这次中国对 DeepSeek 炫耀式的宣传架势显然会刺激美国的神经。虽然美股短期的负面反应似乎显示出投资人在 DeepSeek 影响下对美国 AI 企业信心的不足,但这些企业不可能受到致命打击。川普已经表态 DeepSeek 是对美国企业敲响的警钟。相信美国企业会知耻而后勇,快速夺回领先地位。

这次 DeepSeek 震荡还会让美国政府和企业认识到将自己辛苦训练的模型开源的风险。本来软件行业有着良好的开源风气,大家将自己的工作成果无私公开是为了别人不用重复劳动,促进整体行业更快的发展。但是现在大家发现开源可能会帮助到敌对国家,从而对世界安全产生威胁。我预计美国的主要 AI 厂商在模型底层架构和算法方面取得关键突破后都会选择闭源以维护自己的技术壁垒。开源模型将难以获得重大更新,并主要由大学等非营利机构在有限的资源下维护。

美国还有可能升级对中国的芯片出口限制,连 H800 也被加入禁售目录。若是中国开发出自己的 AI 芯片,那最终中美模型可能在底层上就将无法兼容,从而走上完全不同的发展道路,就像美苏在战机设计和发展上的差别一样。除非中国的政权体制发生根本性改变,这样的趋势将不可逆转。

您需要登录后才可以回帖 登录 | 注册

本版积分规则

手机版|阿波罗网

GMT+8, 2025-2-23 00:15

快速回复 返回顶部 返回列表