在过去一周的开源周上,DeepSeek" 五天五连炸 " 让市场拍案叫绝。而就当外界以为这场盛宴即将落下帷幕之时,DeepSeek 拿出了更令人震惊的 " 彩蛋 " ——成本利润率高达 545%,V3/R1 推理系统理论日利润达到 346 万元人民币。
而在市场为这超高 " 暴利 " 连连感叹的同时,也更关心这几个问题:如何解读 545% 这个利润率?是否是对算力的核弹?这对云产业链意味着什么?这对大模型同行意味着什么?这对生态又意味着什么?数位科技博主的主要观点如下:
利润率 545% 目前仍是理论收益,DeepSeek R1 模型的利润率约为 85%。而如果按照 V3 的定价,利润率会降至 70% 左右。即便如此,这个数字仍然非常可观。
而对算力产业链来说,DeepSeek 的案例证明,即使在硬件条件相对有限的情况下(使用 H800),通过极致的 infra 优化,也能实现极高的算力利用率和性能。
但是关于 DeepSeek 的创新是否会减少对算力的需求这一点,外界仍有不少分歧。知名投资人段永平赞同此前英伟达 CEO 黄仁勋的观点,认为算力需求会持续增长。但是也有国外科技博主表示,DeepSeek 已经把英伟达 " 击倒 ",按照 DeepSeek 目前对算力的超高利用率来看,全球的 AI 需求都没有这么多。
此外 DeepSeek 的案例证明,让 AI 云计算与传统云计算的相似性更加明显。AI 云计算也将同样面临着 " 低峰期闲置率 " 和 " 高峰期稳定性 " 的挑战。
DeepSeek 的开源和技术披露,为整个行业树立了新的标杆。同行可能要面临更大的竞争压力,新一轮价格战正在路上。
对于行业生态来说,DeepSeek 通过开源技术和输出,将吸引业界在其基础上构建 to B 和 to C 业务,形成完整的产业上下游。
一、如何解读这个利润率?
首先需要明确的是,DeepSeek 官方公布的 545% 利润率是基于特定条件下的 " 理论 " 计算,即假设所有 tokens 都按照 R1 模型的定价计算,且未考虑 V3 的更低定价、免费服务占比以及夜间折扣等因素。实际上,根据 DeepSeek 官方的说法,他们真实的利润率远没有这么夸张。
按照科技博主 180K 的解读,DeepSeek R1 模型的利润率约为 85%,而如果按照 V3 的定价,利润率会降至 70% 左右。即便如此,这个数字仍然非常可观。
180K 表示,这一点可以通过对比 Anthropic 的利润率来更深入地理解。根据 TD Cowen 的拆解,Anthropic 2024 年的利润率预计为 61%。如果按照 DeepSeek 的口径,并考虑 AWS 的云计算利润率(假设为 25%-40%),Anthropic 的利润率可以达到 74%。极端情况下,如果假设 AWS 的利润率为 50%,Anthropic 的利润率甚至可以达到 85%,与 DeepSeek 的 R1 模型相当。
这说明,尽管 OpenAI 和 Anthropic 在成本控制上可能不如 DeepSeek 极致,但它们凭借更高的定价和更慷慨的客户(至少目前如此),也能实现类似的高利润率。需要注意的是,OpenAI 经常被报道 " 亏损 ",这是因为在融资时,投资者通常关注的是财务会计上的盈亏,而非大模型租赁角度的理论成本,模型训练成本、数据授权费用、人员和宣传等运营支出通常也被计入。
二、是否是对算力的核弹?
DeepSeek 的案例证明,即使在硬件条件相对有限的情况下(使用 H800),通过极致的 infra 优化,也能实现极高的算力利用率和性能,这对整个算力产业链影响巨大:
首先,科技博主 180K 认为," 有效算力 " 的重要性将凸显。行业将更加关注 " 有效算力 "(算力 x 算力利用率),而不仅仅是单纯的算力堆砌。
并且国产芯片的上限有望提升。如果 H800 都能跑出如此效果,那么通过 infra 优化,国产芯片的性能上限或许能进一步提高。
另外,科技博主信息平权认为," 杰文斯悖论 " 持续生效。算力效率的提升并不会减少算力需求,反而会刺激更多应用场景的出现,推动算力需求的持续增长。正如巴克莱银行在去年 6 月的预测,到 2026 年,业界的资本支出足以支撑 "12000+ 个 ChatGPT 级别的应用 "。
而且短期内算力需求逻辑可能受到质疑。一些企业,特别是海外大厂的 CIO 或 CFO,可能会面临来自投资人和老板的压力,被要求解释为什么他们的 ROI 远低于 DeepSeek。
知名投资人段永平也在雪球上表示,DeepSeek 的经验的确证明了模型预训练阶段较低的算力也可以达成比较好的训练结果。而且他也赞同黄仁勋的说法,认为 DeepSeek 的创新不会减少对算力的需求。
此前黄仁勋曾在 2 月的访谈中表示,认为市场对 DeepSeek 的理解完全搞反了。他表示,R1 的出现并非意味着市场不再需要算力资源,而是激发了市场对更高效 AI 模型的追求,从而推动整个行业的发展。
但是国外科技博主 Zephyr 则认为,DeepSeek 已经将英伟达 " 击倒 "。而且按照 DeepSeek 目前对算力的超高利用率来看,满足全球的 AI 需求绰绰有余。
DeepSeek 已经将英伟达 " 击倒 "。
我之所以这么说,是因为 DeepSeek 目前每天在 300 台 H800 节点(共 2400 张 H800)上处理 6000 亿 个 token,并输出 1500 亿 个 token。
如果算力扩大 100 倍(即 24 万张 H800),每天就能处理 60 万亿 个 token,并输出 15 万亿 个 token。
但全球的 AI 需求并没有这么高。
三、对云产业链意味着什么?
DeepSeek 的成功案例,让 AI 云计算与传统云计算的相似性更加明显。AI 云计算也将同样面临着 " 低峰期闲置率 " 和 " 高峰期稳定性 " 的挑战。
科技博主 180K 认为,云计算的规模效应会更加显著。DeepSeek 的实践表明,大规模集群和高并发利用率能显著降低成本。用户数量的正外部性更加明显,即用户越多,平抑波动的能力越强,算力冗余需求越低。
云厂商的竞争优势可能发生变化。拥有自身业务的云厂商(如阿里、腾讯、苹果等)可能比没有自身业务的云厂商更具成本优势,因为它们可以将推理集群作为所有业务的底座,实现更大的规模效应。
而且云计算的利润率有提升空间。DeepSeek 的案例表明,在 AI 时代,通过极致的 infra 优化,云计算的利润率有进一步提升的潜力。
此外,私有云部署的吸引力可能下降。超稀疏的 MoE 模型可能并不适合个人或 " 半桶水 " 的企业部署,小规模 GPU 部署的成本可能远高于大厂。这可能导致更多企业选择公有云或混合云模式。
普通云计算 /AI 应用需要为高强度用户并发预留更多空间。用户对 DeepSeek 的 " 服务器繁忙 " 有较高的容忍度,但对于其他应用则不然。这可能导致普通云计算 /AI 应用的利润率进一步下降。
四、对大模型同行意味着什么?
DeepSeek 的开源和技术披露,为整个行业树立了新的标杆。
科技博主信息平权认为,DeepSeek 的案例表明推理成本的 " 底线 " 被大幅拉低,可以远低于之前的预期。而且新一轮价格战可能爆发,同行们将面临更大的降价压力以保持竞争力。
并且 DeepSeek 为所有推理团队提供了明确的优化路径和目标,后续压力会加大。
另外在这种情况下,OpenAI 的高价订阅模式也将面临挑战,每月 200 美元的高昂订阅费有些尴尬。
五、对生态意味着什么?
DeepSeek 的战略是专注于基础模型和前沿创新,通过开源技术和输出,吸引业界在其基础上构建 to B 和 to C 业务,形成完整的产业上下游。
科技博主极客公园表示,生态合作伙伴的盈利空间增大。云平台和上下游通过部署 DeepSeek 的服务,理论上可以获得很高的收益和利润率。
展望后续生态,模型架构的差异化可能成为竞争关键。因为 DeepSeek V3/R1 的架构与主流模型有较大差异,这要求供应商进行适配,开发难度较高。
而且 DeepSeek 的开源举措,降低了社区复现其推理系统的难度,有利于生态的繁荣。
科技博主 180K 则表示,整个行业可能将开始卷 Infra。某种程度上,Infra 的重要性在提高,估值也可以提升。
总而言之,DeepSeek 的超高利润率,不仅是一个数字上的奇迹,更是对整个 AI 行业的一次深刻启示。它揭示了 infra 优化的巨大潜力,推动了算力、云、大模型以及生态的变革,预示着一个更加高效、低成本、竞争激烈的 AI 时代即将到来。
还没有评论,来说两句吧...