Barrons【DeepSeek引发了市场恐慌。我们区分事实与虚构。DeepSeek Sparked a Market Panic. Here Are the Facts.】
当前位置: 首页 → 时事动态 →
Barrons【DeepSeek引发了市场恐慌。我们区分事实与虚构。】
作者:金泰(Tae Kim) | 2025年1月28日
社交媒体从不放过任何好故事。
周末,社交媒体上有人声称,中国公司DeepSeek仅花费600万美元就复制了OpenAI的人工智能技术,而美国科技巨头们为此花费了数十亿美元。这种毫无根据的炒作迅速引发了人们对美国人工智能领导地位的质疑,并导致科技股在周一暴跌。纳斯达克综合指数当日下跌3.1%,而人工智能领导者英伟达(Nvidia)股价则下跌16.9%。
但现实情况要复杂得多。DeepSeek并不是通过花费几百万美元就能简单地复制OpenAI的能力。
DeepSeek在12月底的一份技术论文中首次公布了600万美元的数字,用于其DeepSeek-V3模型。这家初创公司估计,如果租用280万GPU小时,该模型的最终训练运行将花费560万美元。重要的是,DeepSeek排除了与“架构、算法或数据相关的前期研究和消融实验”相关的成本。
这意味着该数字排除了开发模型架构、算法、数据采集、员工工资、购买GPU和测试运行的所有研发资金。将理论上的最终运行训练成本与美国公司在人工智能基础设施资本支出上的总支出进行比较,就像拿苹果和橘子作比较一样。DeepSeek的总成本可能要高得多。
周一,伯恩斯坦分析师斯泰西·拉斯贡(Stacy Rasgon)引用了DeepSeek的披露,指出对500万美元数字存在“根本性的误解”。他说:“中国用500万美元复制了OpenAI的说法是彻头彻尾的谎言。”
科技基金经理加文·贝克(Gavin Baker)称,使用600万美元训练数字“严重误导”,并强调一支聪明的团队不可能用几百万美元从头开始训练DeepSeek模型。
几位人工智能专家强烈怀疑DeepSeek除了使用自己的模型输出外,还使用了美国先进的模型输出,通过一种称为蒸馏的过程来优化其模型,利用大型模型来提高小型模型的能力。
与此同时,中国最近的消息也打破了人工智能低成本的想法。上周,中国宣布了在未来几年为人工智能提供1370亿美元财政支持的规划。据《华尔街日报》报道,DeepSeek创始人梁文峰上周告诉了中国总理李克强,美国对人工智能GPU的出口限制仍然是一个“瓶颈”。
这意味着全球科技公司可能会继续投资人工智能基础设施,以训练新的先进模型并开发下一代技术。
在DeepSeek热潮中,Meta Platforms首席执行官马克·扎克伯格(Mark Zuckerberg)周五宣布了,该公司今年将投资600亿至650亿美元用于资本支出,同时大幅增加其人工智能团队。去年10月,Meta预计2024年的资本支出为380亿至400亿美元。“今年将是人工智能的关键一年,”扎克伯格周五在Facebook上写道,并补充道,Meta正在建设一个2+千兆瓦的数据中心,到年底将拥有超过130万个GPU。
需要明确的是,从DeepSeek中可以得出一些重要的结论。在推出新模型后,人们开始关注人工智能推理所需的计算能力,以及从人工智能模型中生成结果的过程。
这家中国初创公司通过采用“专家混合”等技术进行创新,使其较小的精简模型在推理方面效率极高。New Street Research表示,使用DeepSeek-V3进行推理的成本比同类OpenAI模型低约90%。
由于对未来训练和推理需求的担忧和不确定性,英伟达股价周一下跌。英伟达发言人称DeepSeek是“人工智能领域的卓越进步,也是测试时间缩放的完美示例”,并指出“推理需要大量英伟达GPU和高性能网络”。
DeepSeek可能意味着人工智能模型的效率正在大幅提升。如果真是这样,美国供应商最终很可能会复制这项工作。但这并不意味着人工智能芯片会突然出现永久性的过剩。历史表明,技术创新会填补现有供应。
“深度学习对计算有着传奇般的贪婪胃口,这是人工智能领域前所未有的,”特斯拉前人工智能总监、OpenAI联合创始人安德烈·卡尔帕西(Andrej Karpathy)说道。
特斯拉前人工智能总监、OpenAI联合创始人安德烈·卡尔帕西(Andrej Karpathy)表示:“从长远来看,我绝不会认为计算能力是实现智能的上限。
前英特尔首席执行官帕特·盖尔辛格(Pat Gelsinger)提出了类似的观点:“计算能力遵循气体定律。大幅降低计算成本将扩大市场。市场正在犯错,这将使人工智能得到更广泛的应用。”
与此同时,微软公司首席执行官萨蒂亚·纳德拉提到了杰文斯悖论,这是经济学家在1865年提出的一个观点,即随着更多使用案例变得经济实惠并被发现,效率的提高会增加消费。他说:“随着人工智能变得越来越高效和普及,我们将看到它的使用量猛增,使其成为一种我们永远无法满足的商品。”
如果人工智能变得更强大,那么开发者和企业最终会找到使用它的方法,尽管短期内还会遇到一些障碍。这次也不会有什么不同。
请发送电子邮件至tae.kim@barrons.com联系Tae Kim
原文链接:(中文翻译出自翻译软件,仅供参考。)
https://www.barrons.com/articles/deepseek-nvidia-stock-price-4abca87d
【DeepSeek 之我见】
X @GavinSBaker 推文 (为了清晰起见,编者为原文加了标题并分段)
作者:加文-贝克(Gavin Baker) Atreides Management, LP 的执行合伙人兼首席投资官。
1)DeepSeek r1是真实的,虽有不可忽视的细小误差。最重要的是,r1比o1便宜得多,推理效率也更高,尽管不是从600万美元的训练数据中得出的。r1在每个API上的使用成本比o1低93%,可以在本地高端工作站上运行,似乎没有达到任何疯狂的速率限制。简单的数学计算表明,在FP8中,每个1b的活动参数需要1gb的RAM,因此r1需要37gb的RAM。批量处理可以大大降低成本,而更多的计算可以增加每秒的令牌数,因此云推理仍然具有优势。还要注意的是,这里确实存在地缘政治动态,我认为这并非巧合,因为这是在“星际之门”(Stargate)之后出现的。RIP,5000亿美元——我们甚至几乎不认识你。
- 真实:
- 1)它是/曾是相关App Store类别中的下载量第一。显然领先于ChatGPT;这是Gemini和Claude都无法做到的事情。
- 2)从质量角度来看,它与o1相当,尽管落后于o3。
- 3) 算法方面取得了真正的突破,使得训练和推理效率大幅提升。FP8、MLA和多标记预测方面的训练意义重大。
- 4) 很容易验证r1训练运行仅花费了600万美元。虽然这是事实,但也*严重*误导了人们。
- 5) 甚至他们的硬件架构也是新颖的,我会注意到他们使用PCI-Express进行扩展。
- 细小误差:
- 1) 根据技术论文,600万美元不包括“与之前对架构、算法和数据的研究和消融实验相关的成本”。“除了林肯夫人,戏演得怎么样?” 这意味着,如果实验室已经花费了数亿美元进行前期研究,并且拥有更大的集群,那么就有可能用600万美元的训练数据训练出r1质量的模型。Deepseek显然拥有超过2048个H800;他们早期的一篇论文中提到过1万个A100的集群。一个同样聪明的团队不可能只用600万美元就启动一个2000个GPU的集群,并从头开始训练r1。大约20%的英伟达收入来自新加坡。尽管英伟达尽了最大努力,但20%的英伟达GPU可能不在新加坡。
- 2)他们进行了大量提炼——也就是说,如果没有不受限制地访问GPT-4o和o1,他们不太可能训练出这个模型。正如@altcap昨天向我指出的那样,限制访问领先的GPU,却对中国提炼美国领先模型的能力无动于衷,这有点滑稽——这显然违背了出口限制的目的。既然可以免费获得牛奶,为什么要买奶牛呢?
2)结论:
- 1)降低培训成本将提高人工智能的投资回报率。
- 2)短期内,这对培训资本支出或“力量”主题没有积极意义。
- 3)对于当前在科技、工业、公用事业和能源领域“人工智能基础设施”的赢家来说,最大的风险是r1的精简版本可以在高端工作站的边缘本地运行(有人提到了Mac Studio Pro)。这意味着,类似模型将在大约两年后运行在超级手机上。如果推断能力因为“足够好”而转移到边缘,那么我们将生活在一个截然不同的世界中,赢家也将截然不同——即我们所见过的最大的PC和智能手机升级周期。计算在集中化和分散化之间摇摆了很长时间。
- 4)ASI真的非常接近,但没有人真正知道超级智能的经济回报是什么。如果一个价值 1000 亿美元的推理模型在 10 万多台 Blackwells(o5、Gemini 3、Grok)上进行训练。这样训练出的1000亿美元推理模型能够治愈癌症并发明曲速引擎,那么ASI的回报率将非常高,训练资本支出和能耗也将稳步增长;戴森球(Dyson Spheres)将重新成为费米悖论的最佳解释。我希望ASI的回报率很高——那真是太棒了。
- 5)这对那些*使用*人工智能的公司来说确实是一件好事:软件、互联网等。
- 6) 从经济角度来看,这极大地提高了分销和*独特*数据的价值——YouTube、Facebook、Instagram和X。
- 7) 美国实验室可能会停止发布其领先模型,以防止r1必不可少的提炼,尽管在这方面猫可能已经完全暴露了。 即r1可能足以训练r2等。Grok-3 即将问世,可能会对上述结论产生重大影响。这可以说是自 GPT-4 以来对预训练规模法则的首次重大考验。就像通过 RL 将 v3 转化为 r1 需要几周时间一样,提高 Grok-3 的推理能力可能也需要几周时间来运行必要的 RL。基础模型越好,推理模型应该越好,因为三个缩放定律是乘法关系——预训练、后训练期间的强化学习以及推理期间的测试时间计算(强化学习的函数)。Grok-3已经证明它可以完成超越o1的任务——参见Tesseract演示——超越的程度有多高将非常重要。
套用《双塔奇兵》中一位无名兽人的话来说,肉可能很快就会重新出现在菜单上。时间会证明一切,“事实胜于雄辩,我会改变主意。”
https://x.com/gavinsbaker/status/1883891311473782995?s=46
当前位置: 首页 → 时事动态 →