从CerebrasIPO聊起：AI算力变化、Scaling law萌芽和百度美研往事|周楠|吴恩达|李彦宏|知名企业|scaling

分享至

访谈 Cerebras 早期投资人周楠。

文丨实习生付自文

编辑丨程曼祺

今年 5 月中旬，美国 AI 芯片与系统公司 Cerebras 登陆纳斯达克。上市一个月内，它的市值一度逼近千亿美元。它被外界视作英伟达的补充，甚至是挑战者。

Cerebras 的特殊性在于它从 2015 年创立之初就选择了一条颠覆性路线：把整片晶圆做成一个巨大的 AI 计算引擎，以减少数据搬运和通信开销。

今天的嘉宾周楠，目前任职于 Qualcomm Ventures，是 Cerebras 的早期投资人之一。9 年前完成这笔投资时，她刚从投行加入百度硅谷人工智能实验室。当时的负责人是吴恩达，Anthropic 创始人 Dario Amodei 也曾在那里工作。

当时的百度美国研究院几乎是全世界 AI 人才密度最高的地方。早在 2016 年，Transformer 尚未发布，他们就形成了一个共识：AI 的进步需要更大的模型、更多的数据、更强的算力。

后来的故事已经成为主流叙事。Transformer 改变了模型架构，scaling law 统一了模型规模与数据、算力之间的语言。但美国头部 VC 真正集体意识到，自己需要重注 AI 而不是 SaaS，已经是 ChatGPT Moment 之后。

很少有人记得，百度曾站在硅谷乃至世界 AI 的前沿，尝试投资新的芯片、数据引擎和前沿模型公司。Cerebras 正是其中一个后来被证明足够重要的项目。

在周楠看来，伟大的投资发生在共识形成之前。但今天 AI 已经成为共识，“非共识” 的窗口变得极短，连头部 VC 都在竞相押注已经跑出圈的公司。因此 Cerebras 上市也是一个提醒：当所有人都在追逐 AI，真正稀缺的不是相信 AI，而是判断下一个发展瓶颈。

从 Cerebras IPO 聊起，推理崛起给了异构芯片机会

晚点：Cerebras 今年 5 月中旬在纳斯达克上市，市值一度逼近千亿美元，现在回到约 500 亿美元。可以先简单介绍一下，这是一家什么公司？

周楠：Cerebras 是我在百度美国研究院时，自己找到、做尽调、一步步建立判断并推动完成投资的第一个项目，当时投的是 C 轮。它不只是一家芯片公司，而是在英伟达 GPU 路线之外，重新设计 AI 训练和推理的计算架构。

它的核心创新是 Wafer-Scale 架构，也就是把整片晶圆做成一个超大的 AI 计算引擎，在单片上集成大量计算核心和片上内存，尽量减少数据搬运和通信开销。Cerebras 同时也做服务器、散热、电源、编译器和软件栈，所以更准确地说，它是一套从芯片到系统的 AI 算力新方案。

晚点：市场对 Cerebras 的一种叙事是 “英伟达挑战者”，实际上呢？

周楠：我们当时投 Cerebras，一个很重要的起点是，百度美国研究院的很多 AI 研究员都在训练模型，他们很早就认为，未来模型会越来越大，数据越来越多，训练迭代需要更强的芯片，不能只依赖英伟达。

十年前的英伟达芯片，也不是专门为深度学习设计的，更多还是服务游戏和图形处理。所以当时我就想，能不能找到更适合深度学习训练的芯片。倒不是一开始就要对抗英伟达，而是要有一个替代方案，避免英伟达的垄断。

但今天 Cerebras 更准确地说，是英伟达在某些特定负载上的挑战者，尤其是推理。但英伟达的护城河也不只是 H100、GB200 这些芯片，还有 CUDA、开发者生态、网络、软件、客户信任和供应链这一整套东西。（注：H100 是上一代主力 AI GPU，GB200 是 Blackwell 架构下 GPU 与 Grace CPU 组合的 AI 计算平台。）

Cerebras 的机会在于，当一些 AI 推理，受限于内存带宽、通信延迟和响应速度时，它会是一个很好的架构选择。它的推理速度，确实比现在很多方案快很多。

晚点：十年前，全球都有类似的创新思潮：Google 的 TPU 自研起步于 2015 年，寒武纪等公司也是 2016 年成立。当时一种观点是，相比通用 GPU 架构，ASIC（专用集成电路）针对深度学习做更多优化。但之后十年，ASIC 并没有撼动通用 GPU 的地位。Cerebras 两三年前的估值还仅是数十亿美元，上市后到了数百亿美元。你觉得这是市场情绪变了还是它的业务和技术真的变了？

周楠：首先是市场需求变了。两三年前，ChatGPT 刚出来，AI 算力已经变成全球稀缺的战略资源，但那时模型能力要不断迭代，大家主要解决的还是模型训练问题，推理（模型使用阶段的算力）需求还没有现在这么大，所以英伟达还是叙事主体。

但现在一半以上的算力都用在推理上，再加上今年 AI Agent 的爆发，又进一步拉动了推理算力的需求。Cerebras 方案里的低延迟、高吞吐就变得更有价值，也更稀缺。它在这个节点上估值爆发，有水到渠成的一面。

晚点：今年的一个明显的利好是，OpenAI 和 Cerebras 签了大额合作，据报道规模超过 200 亿美元。为什么 OpenAI 会对这套方案感兴趣？他们大概会怎么合作？

周楠：首先 Sam Altman 本人是 Cerebras 的投资人。百度是 2017 年投的，他 2016 年就投了。那时 OpenAI 刚成立没多久（注：OpenAI 成立于 2015 年 12 月），说明他很早就意识到，未来模型变大、应用变多之后，不能只依赖英伟达一家。

回到现在，对 OpenAI 这种前沿模型公司来说，算力已经是继续扩展模型的核心瓶颈。即使英伟达很强，它们也一定要分散供应商，找第二种方案。不只是 OpenAI，Anthropic 也在用 Google 的 TPU，大家都在做类似的事。而且推理现在越来越关键，既决定用户体验，也决定模型 API 的毛利。它要低延迟、高吞吐，单个 token 的成本还要持续下降。Cerebras 在这些方面有明显优势，所以对前沿模型公司有吸引力。

晚点：Cerebras 是 Sam Altman 个人投的，也是 OpenAI 的合作方。这个算关联交易吗？

周楠：这些信息只要他披露，不算关联交易。Sam Altman 参与过很多公司和项目，OpenAI 后来也收购了一个与他关系密切的硬件公司。（注：2025 年，OpenAI 宣布收购由前苹果首席设计官 Jony Ive 参与创办的硬件公司 io Products，OpenAI 此前已持有 io 约 23% 股权，后以约 65 亿美元估值完成收购。）

晚点：最近 Cerebras 也宣布和 AWS（亚马逊云科技）合作。但它自己也在做云业务，推出 Cerebras Cloud，这是什么思路？

周楠：我觉得是为了降低客户采用新硬件的门槛。因为他的客户越来越多了，它作为硬件公司很大的挑战，是客户要买一套新系统、部署到自己的数据中心，还要改软件栈，周期很长。

但 Cerebras Cloud 把底层复杂系统封装起来，客户可以直接用 API 接入，不管是训练、推理，还是做应用，都能更快用起来。这对它扩大客户采用很有战略意义。

晚点：其实我最开始看到这个合作时，有一种偏负面的推测：就是如果包了一层云业务，底层用别的算力芯片也可以通过云平台获得收入，这有可能和自有芯片业务左右互搏。但 Cerebras 创始人 Andrew Feldman 最近在彭博科技峰会上强势表态，说会和所有人合作，除了英伟达。

周楠：这和算力短缺有关。现在不只是模型公司缺算力，像 CoreWeave、Nebius 这些新云厂商也缺。GPU 已经成了很大的约束。所以 Cerebras 做云是业务延展，也能增强护城河。对一个模型公司来说，如果找英伟达和周边云厂商还是解决不了算力问题，那从商业角度上，Cerebras 加上云，可能就变成一个更省事的一站式方案。（注：CoreWeave 是美国 AI 云服务商，主要向 AI 公司提供基于英伟达 GPU 的云算力；Nebius 是总部位于阿姆斯特丹的 AI 基础设施公司，提供从 GPU 集群到云平台的一整套 AI 算力服务。）

晚点：总结来说，你现在看到这家公司的上限和下限是什么？

周楠：它的上限很高。现在 AI 算力需求很大，尤其推理的上限，我觉得可能是无止境的。如果它以后做到 5000 亿美元市值，我不会特别惊讶。

下限或者说风险，在于它这套 Wafer-Scale 的方案能不能持续规模化。它现在客户比较集中，和更成熟的芯片厂商相比还不够分散。接下来关键是：能不能扩大客户范围，并且在大规模交付、稳定运营、让客户真正用起来这些环节持续做好。

晚点：Cerebras 这种超大单芯片的架构，规模化交付的难点是什么？

周楠：传统芯片制造，是在一片晶圆上做很多小芯片，切开、封装，再通过 PCB（印刷电路板）、NVLink（NVIDIA 的高速互联技术，用于 GPU 间及部分 CPU-GPU 场景的高带宽通信）这些方式把很多 GPU 连起来。Cerebras 反过来，它尽量不切开晶圆，而是在一整片晶圆上做一个巨大的 AI 计算引擎，相当于把八十多个芯片级模块无缝连在一起。好处是，计算单元、内存和通信网络都在同一个硅片上，数据不用频繁从一个芯片搬到另一个芯片，也减少了外部 HBM（High Bandwidth Memory，高带宽内存）和计算单元之间的数据搬运，所以能加速计算。

GPU 的优势是生态成熟、通用性强；Cerebras 的优势，是在推理等负载里减少分布式通信和内存搬运。

但代价也很明显。我们当时投的时候，担心的风险很多，包括封装、散热、良率等等。不过现在它已经上市，很多早期工程风险应该都解决了。未来进一步放量生产后的良率确实是一个问题，这个我们后面讲风险的时候可以再展开聊。

晚点：其实英伟达自己也有相关动作。比如它在去年底以 200 亿美元收购了推理芯片公司 Groq 的团队。（注：以非独家推理技术授权协议的形式，Groq 仍作为独立公司运营。）

周楠：对，Groq 当时我也看过，它的思路和 Cerebras 很像，都是在尝试不同于 GPU 的计算架构。所以 Cerebras 的问题还是它能不能在客户侧迅速起规模。

回到 2016：Dario 发现 Scaling Law 雏形，百度寻找新架构芯片

晚点：回到最初在 2017 年投资 Cerebras 时，为什么会开始看 Cerebras 这类新 AI 算力方向？

周楠：我当时加入百度之前在巴克莱银行（英国大型跨国银行与金融集团，后收购雷曼兄弟北美业务）做投行业务，在香港，正好赶上中国移动互联网公司上市潮，做过阿里、京东这些案子，也做过一家芯片公司的上市。

2016 年，百度在全球找 AI 投资人，加入他们在硅谷的人工智能研究院，和吴恩达一起工作。我就是在这个背景下进了百度。相当于是从投行转到投资，从卖方转到买方。而且我比较幸运的是，一开始就进入了一个纯 AI 的环境。那时候很多人还没有在投 AI，但我每天就在一个 AI 研究院里工作。

晚点：2016 年移动互联网还处在收获期，但 AI 还在很早期，为什么会想从投行转向 AI 早期投资？

周楠：其实是因为之前做过一家搜索公司的上市，最后没成功，但它在招股书里讲了一个 AI 故事。那是我第一次接触 AI，当时就觉得，这是未来。后来知道百度 2014 年邀请吴恩达去美国人工智能研究院，我也在硅谷听过几次他的讲座，就对百度产生了很强的兴趣。2015 年底看到他们在招 AI 投资人，我就投了简历。

晚点：当时百度硅谷 AI Lab 已成立 2 年，它是一个什么状态？

周楠：那会儿应该是硅谷最强的 AI 实验室之一，吴恩达的号召力非常强，百度也愿意给预算买 GPU、训练模型。他很早就把 GPU 作为训练 AI 模型的核心算力系统推到台前。如果没有他当时的背书，大家可能不会那么快认识到 GPU 可以被大规模用于 AI 训练。

当时研究院人才密度非常高，Dario Amodei（Anthropic 联合创始人、CEO）当时也在百度。很多研究员后来去了 OpenAI，或者成了后来前沿 AI 实验室的早期核心成员。

大家做的方向也很多，包括语音模型、视觉模型，也有零售、金融科技、医疗、自动驾驶等等。但内部有一个很强的共识，尤其是 Deep Speech 2 之后，大家看到 AI 进步依赖三件事：更大的模型、更多的数据、更强的算力。

这就有一个很朴素的判断：如果 AI 要持续进步，底层算力会非常重要。而 GPU 虽然是当时最好的工具，但它不是从零开始为深度学习设计的，所以我花了大概半年时间，把 AI 从训练、架构、数据到模型能力这一套重新学了一遍。到 2017 年，我就开始到处找不同于 GPU 的新算力系统。

晚点：可以把 2015 年发布的 Deep Speech 2 这篇论文展开讲讲。这篇论文的一作就是 Dario，后来它被认为是阐述 scaling law 雏形的早期研究之一。

周楠：我加入时，这篇论文已经发了。当时大家还没有把 scaling law 用今天这种数学化、系统化的方式表达出来，但已经有一个很强的经验直觉：模型更大、数据更多、训练更久、算力更强，模型效果就会持续提升。后来语言模型时代把这件事理论化了，但往回看，scaling law 诞生的萌芽就是这篇论文。

晚点：百度内部，那会儿这个研究成果就很受重视吗？

周楠：这个结论是很直接的投资启发：如果 AI 能力要继续提升，就需要更强的计算系统。那时候还没有现在说的训练、后训练这些概念，就是很朴素地看模型、数据、训练时间和算力。

我印象很深的是，当时百度已经在训练接近 3 亿参数的语言模型，这在十年前非常大。研究员们跟我说，用 GPU 训练一次要三个多月。我当时就听傻了：如果训练一次要几个月，那调参、迭代怎么办？所以当我后来看到 Cerebras，说它的架构可以把深度学习训练效率提高一千倍，把几个月的训练缩到几天或几周，这个吸引力就非常强。

晚点：沿着这个思路，你当时还看了哪些公司？

周楠：看了挺多，有 Graphcore、Wave Computing，还有一些做 ASIC 的公司。但 ASIC 更适合做推理芯片，而当时我们最想解决训练问题。所以最后真正让我重点尽调的，主要是 Graphcore、Wave Computing 和 Cerebras 三家。

晚点：为什么选了 Cerebras？

周楠：现在记不太清当时每个细节，印象里 Graphcore 也能提速，不过架构没有 Cerebras 那么颠覆（Graphcore 开发了不同于传统 GPU 的架构的 IPU：Intelligence Processing Unit）。作为投资人，我当时更想投一个真正可能把深度学习训练提速百倍、千倍的架构。Wave Computing 的理念和 Cerebras 有点像，但团队配置有些问题，所以是最早被淘汰的。

晚点：所以当时三选一，最后选到了目前看结果最好的一家。

周楠：当时 Cerebras 的信号非常明显。Andrew Feldman 前一家公司 SeaMicro 被 AMD 收购（注：2012 年 2 月，交易金额约 3.34 亿美元），他几乎带着原班人马出来，围绕一个全新架构创办 Cerebras。公司才一年多，团队八十多人，接近七十个博士，他们的工作经验加起来有好几百年，是我见过的博士密度最高的公司。创始人很有号召力。

晚点：你具体是怎么接触到 Cerebras 的？

周楠：我 2017 年初还不认识 Cerebras，是上半年后期才接触到。当时我把 Coatue 的创始合伙人 Thomas Laffont 请到百度，他正好也懂半导体。我跟他聊我们对 AI 算力的判断，他很兴奋，就说他们投了一家很颠覆的公司，叫 Cerebras。我当时已经看过 Graphcore、Wave Computing，但都还在犹豫，Cerebras 一出现就眼前一亮。

晚点：Andrew 本科读的是经济学和政治学，后来又拿了斯坦福 MBA，早年主要做市场和产品，并不是芯片工程师出身，这会让你有疑虑吗？

周楠：芯片公司创始人大多是工程师背景，但后来我觉得 Cerebras 反而是一个很好的组合。Cerebras 是系统级公司，Andrew 的强项是产品定义、组织团队、理解客户和坚持长期愿景。他身边有很强的技术联创，而且都是跟了他很多年的人。

另外，Andrew 也是连续创业者，在行业里面有很深厚的关系网。他很清楚自己的优势和客户的痛点。我当时带着百度 AI 研究员做了很深的尽调，问他良率、散热、电源、编译器、客户为什么要买，他都不回避，一个个拆开讲。我当时还是芯片小白，他可以每天跟我讲两小时，连续讲四个星期。

他不只是能讲愿景，也能从第一性原理把风险拆清楚。对投资人来说，投深科技不是只投宏大叙事，而是要知道风险到底是什么，以及有没有办法去对冲这些风险。

晚点：研究员支持你们做尽调，是组织安排的还是他们自己驱动的？

周楠：当时像 Greg Diamos 这些研究员，自己就在训练大模型，真实的痛点就是太慢了。所以我把 Cerebras 这个架构带到他们面前时，他们也很兴奋，很想知道它到底行不行。Greg 是 Deep Speech 2 的作者之一，也是英伟达构建 CUDA 生态的关键人物，所以他的判断对我们很重要。（注：Greg Diamos 离开百度后，曾加入吴恩达创办的 Landing AI 早期团队，后又参与创办企业大模型平台 Lamini。）

其实当时 Cerebras 还没有正式流片，只有模拟。那时能真正帮它验证模拟的公司只有百度等非常少的几家，那时还没有 Transformer（注：Transformer 由 Google 于 2017 年 6 月发布，百度硅谷 AI Lab 开始寻找、投资 AI 芯片公司是在 2016 年下半年至 2017 年），百度的大语言模型最先是基于一个自研的框架 PaddlePaddle。我们把模型跑到 Cerebras 的模拟器上，看它在假设良率、编译器、散热、封装都成立的情况下，是否真的能带来很大提升。最终结果是非常好的，这在某种程度上也验证了他们的想法。后来也有一些百度研究员和 Cerebras 合作很深，甚至加入了 Cerebras。

晚点：理论验证之后，良率、散热、封装这些具体的硬件风险，你们是怎么判断的？

周楠：我们找了斯坦福教授、芯片专家，也问了百度内部做自动驾驶硬件的人。硬件风险其实可以一项项拆。比如良率问题，如果第一次流片失败，要多花多久成本？我们当时测算，最坏可能多花六个月、500 万到 1000 万美元，综合公司的现金流，当时结论是风险可控。

散热、电源、封装这些也一样。Cerebras 当时已经有液冷系统方案，也有软件层面的故障应对机制。编译层面则是 Greg 他们重点测算的，包括模型怎么映射到这个架构上，怎么和 TensorFlow、Keras、PyTorch 这些框架、API 和客户数据中心对接。所以没有百度美研这些研究员和硬件专家，我是很难把这些风险看清楚的。当时那一批硬件专家，很多现在也在做 GPU 的创业。（注：TensorFlow、PyTorch 都是开源深度学习框架，Keras 是高级神经网络 API，早期常与 TensorFlow 搭配使用，强调快速搭建深度学习模型。）

现在回看，百度当时做的技术尽调，可能是早期投资人里最深入的一份。我也把结论跟 Benchmark、Coatue 这些更早期投资人分享过，他们听完以后也安心了不少。

晚点：Cerebras 后来上投决会是什么过程？当时是哪些人一起做决策？

周楠：当时投决会里有我的老板 Jennifer Li（李昕晢，百度 CFO），还有陆奇和 Robin（李彦宏）。我写了十几页投资备忘录，中英文都有，发上去不到两天就通过了。回头看觉得自己很幸运，因为后来见过很多 CVC、IVC 的投决流程，才知道百度当时这个投决会多有眼光。对这种非共识、颠覆性的算力系统，百度从上到下都很支持，基本是无痛通过。（注：CVC 即企业风险投资，Corporate Venture Capital，指大公司设立的投资部门或基金；IVC 即独立风险投资机构，Independent Venture Capital，通常指不隶属于大公司的专业 VC。）

晚点：吴恩达当时不在投决会上？

周楠：到投资 Cerebras 时，吴恩达已经离开百度了。

晚点：当时百度管理层有没有考虑说流片之后再投？

周楠：没有。他们没有干涉这个判断。百度那么早成立美国人工智能研究院，李彦宏那时候也很早就去竞标 Geoffrey Hinton 的实验室，所以他们对这种颠覆性投资本来就是支持的。

晚点：你还记得当时估值是多少吗？

周楠：不便宜，差不多 7 亿多美元。放在 2016、2017 年，快到独角兽了。我当时测算 2025 年 AI 训练市场大概 220 亿美元，按 Cerebras 20% 左右市占率，投资回报大概 3 到 5 倍。现在看，这个判断太保守了，我完全低估了 AI 腾飞的速度。

晚点：但是你当时测算的市占率挺高，有 20%。而现在 Cerebras 的市占率是很小的，收入和订单金额大，是因为整个盘子大。为什么它的市占率不如预期？

周楠：对。2017 到 2019 年，Cerebras 其实经历过很艰难的阶段，流片也有推迟。我们当时测算过的那些下行风险，基本都发生了，比如流片延迟一两年。所以回头看，这个团队很有韧性。虽然它现在市占率还不高，但这个架构本身已经跑出来了，接下来就是在推理市场扩张。

训练市场我觉得不是没有机会，只是前沿模型公司已经在英伟达 GPU 上形成了训练体系，让它们换训练芯片，风险比较大。相比之下，Cerebras 在推理场景里更容易切进去，所以现在很多客户需求也集中在推理。

晚点：OpenAI 200 亿美元的订单还没完全交付，这个阶段能说它在推理市场成功了吗？推理也需要基础设施配合，它的算力结构很特殊，会不会导致生态改动很大？

周楠：肯定需要一些定制化。公司已经到这个体量了，为 OpenAI 这样的订单去定制基础设施，是必要的。关键就是看它能多快交付。

晚点：他们自己的团队能搞定吗？

周楠：我认为可以。Cerebras 早期八十多人里有很多博士，人才结构很全面，里面有相当多人就是做基础设施和系统的。

可能也会有一些外部合作，比如做 agentic AI 基础设施的公司。因为 AI Agent 会带来大量推理负载，这和 Cerebras 的低延迟、高吞吐优势很匹配。如果能和这些基础设施公司配合起来，它的工作负载跑起来会更顺。

晚点：如果 2017 到 2019 年，Cerebras 流片更快，现在的算力格局会不会不同？

周楠：可能会不一样。OpenAI 当年训练模型，是黄仁勋把 GPU 送过去。如果那时候 Cerebras 已经成熟，也许是 Andrew 拿着机器送过去，历史可能会被更多改写。

晚点：那得特别快。因为 2017 年 Transformer 发布之后，OpenAI 就开始探索这个方向了。

周楠：对，而且现在前沿模型公司的 GPU 集群、数据中心基建已经投下去了，要在这时换到其他的芯片上去，其实是很大的系统风险。

晚点：这可能也跟半导体行业的周期有关。硬件迭代本来就长，客户会很看重稳定性、良率和规模交付。英伟达 GPU 毕竟是软硬件都积累多年的产品。Cerebras 即使更快流片，也很难立刻改变格局，新方案还要经过物理制造验证。

周楠：对，规模生产交付、编译器和软硬件生态都得跟上。达不到理想状态，前沿模型公司就不会接受。

晚点：这也是它和大模型公司、软件公司不同的地方。

周楠：但现在是个好机会。今天算力需求里相当大一部分是推理，Cerebras 的优势会更明显。所以与其纠结训练市场，不如把推理负载做好，战略上去吃推理市场是比较正确的决定。

晚点：说到周期，这家公司还有个特点，创始人年纪都挺大，Andrew Feldman 和他的技术合伙人 Gary Lauterbach 十几年前开始这次创业时，一个四十多，一个已经接近六十。到上市时，Lauterbach 已经退休了。这和现在 AI 领域鄙视 “老登” 的风潮还挺不同。

周楠：半导体创始人年纪一般都不小，因为行业周期很长。你要投连续创业者，他至少经历过一个周期，而且很多人是博士出身，受教育时间也很长，团队不可能特别年轻。但我觉得这是优势。Andrew 在行业里有积累，有关系网，也更懂怎么解决各个工程节点的风险。现在的 CTO Sean Lie 也是创始成员之一，他是比较年轻的，现在也很有经验了。

百度曾有机会成为 OpenAI、Anthropic 的早期天使

晚点：你当时在百度美研除了投 Cerebras，还看了哪些公司？当时的整体的 AI 投资思路是什么？

周楠：当时百度很坚定要投 AI，除了语言模型外，另一个重点是自动驾驶。所以我也看过激光雷达、车载算力、L2、L3 芯片这些方向。地平线创始人余凯博士也是从百度出来的。

一个比较可惜的事是，我曾参与百度的一个成长基金募资计划，那是 2018 年前后，当时已经能看到中美关系的变化，所以我们也在筹划作为独立基金去投更前沿的 AI 全栈系统。

OpenAI、Databricks、Scale AI 这些公司都在 deal list（待投名单）上。OpenAI 在名单上，是因为 Sam Altman 当时和百度关系还可以，陆奇早年曾是他的 mentor；Databricks、Scale AI 是因为当时也认为 AI 全栈里要投数据和数据引擎。（注：Databricks 为美国数据与 AI 公司，主打数据湖仓、数据工程、机器学习和企业 AI 平台；Scale AI 为美国数据和 AI 基础设施公司，早期以数据标注服务闻名，后来扩展到模型评测、数据管线和企业 AI 基础设施。）

晚点：你说 OpenAI 考虑接受百度投资，大概是 2018 年？

周楠：对，那时候他们也很艰难，我们看得非常早。但当时这个基金募了很久，因为一些原因，很多本来想参与的 LP 最后都退了。如果那个基金做成了，百度可能会成为现在很多前沿模型公司的股东。

晚点：后来百度复盘过这个事吗？看起来确实错过了很多投资机会。

周楠：我觉得不是百度错过，而是当时地缘环境的原因，让这个基金没法做起来。

基金做不成以后，我其实拿着这套投资判断，去聊了很多美国一线 VC，包括 Insight、Sequoia、Benchmark 等等，想看看有没有人能认同这套 AI 投资逻辑，但当时没人买单，大家都说要投 SaaS。

晚点：硅谷什么时候开始真正转向 AI，从 SaaS 转到大模型？

周楠：我觉得还是 ChatGPT Moment 之后。2022 年底可能还没有完全意识到。红杉当时有一位合伙人叫 Sonya Huang 很早写了一篇关于生成式 AI 的文章，但它也没有真的押中这一波前沿模型公司。所以顶级 VC 大概是到 2023 年后期、2024 年，才开始意识到要全面押注 AI。

OpenAI 是 2015 年创办，Anthropic 是 2020 年创办，但它们早期融资都不是一帆风顺的。

晚点：Anthropic 最早的投资人确实不是典型 VC，有 Google 前 CEO Eric Schmidt 和 Google DeepMind 负责人 Demis Hassabis，还有 a16z 的合伙人 Anjney Midha 个人投资了一笔。

周楠：还有一个故事。2020 年夏天，一些在 OpenAI 的百度前同事给我打电话。他们很多是 Dario 的朋友，也是在百度最早跟我讲 Deep Speech、早期 scaling 的人。他们当时很激动，说 GPT-3 快训练出来了，当年在百度想做的事情，快在 OpenAI 做成了。

我问他们，模型聪明到什么程度了。因为我们之前在百度测算过，如果要训练出接近维基百科那种知识水平的模型，可能要接近十年时间，花掉上亿美元算力。他们很诚实地说，还没到，还会胡说八道。那时 GPT-3 还在后训练阶段，距离 ChatGPT 出来还有两年多。

后来他们很多人想出来创业，因为不再信任 Sam Altman，觉得他对安全不够重视。然后问我能不能给一些建议，我说建议和当年一样：你们要融很多钱买算力。但主流 VC 那时候大概率不会给这个钱，哪怕在高通，我也很难推动这样的投资。

百度美研，研究组织怎么运转

晚点：十年前的百度美研，研究团队是什么情况，怎么运转的？

周楠：那时候百度美研主要是 AI 研究员，还有一些做自动驾驶的，顶峰时期至少 250 多人。大家每天中午一起吃饭，讨论各种研究问题。

我上周还跟 Greg 聊，他们都很感慨，说那时的人才密度很高，甚至在 Google DeepMind 都没有过。很多人是冲着吴恩达来的，也因为百度从上到下很支持这个研究院，给了充足预算买 GPU，让研究员实现他们对 AI 的一些想法。

后来这里的很多人加入了核心 AI 创业公司，或自己创业，除了前面提到的 OpenAI、Anthropic，也有人参与创办 Adept（2022 年成立的 AI Agent 创业公司，方向是训练模型使用软件工具和 API）、xAI，还有一些人成了 Meta FAIR 等实验室的重要成员。

晚点：当时 Dario Amodei 在百度美研是什么状态？一个业界玩笑是， Dario 在百度可能不太开心，导致他对中国 AI 界不友好。

周楠：Dario 能进百度，其实是他职业生涯里很重要的一步。他是 Greg Diamos 招进来的。而且加入百度前，Dario 并不是计算机或 AI 科班出身，而是数学、物理和生物背景，Greg Diamos 发现他很有 AI 直觉和训练模型的能力。

晚点：大家常说百度在 AI 上是 “起了大早，赶了晚集”。它很早成立百度美研，2015 年 Deep Speech 也已经看到扩大数据和算力，可以训练出更智能的模型，但最后这件事不是百度自己做成。你觉得为什么？

周楠：确实可惜，我觉得一个重要原因还是大环境。2018、2019 年以后，中美在 AI 上竞争加剧，很多研究员会感受到压力，最后选择离开。

晚点：但即使放到中国公司训练的模型里，百度现在也不是最靠前的。

周楠：确实最早那批人工智能研究员，包括吴恩达这些有远见的人，主要是在美国硅谷。

美国更擅长颠覆性创新，中国更擅长应用和追赶。比如计算机视觉，中国有很大的应用场景，市场也很强；但语言模型这类创新，还是先在硅谷发生，然后再扩散到中国。

晚点：这个模式过去十几年确实成立。微软亚洲研究院当时也有很多 AI 人才，最强的方向是计算机视觉；而再往前追溯，CNN、ImageNet、AlexNet 这些计算机视觉创新和后来的语言模型，最初的源头多在美国，然后扩散全球。不过百度倒是留下了两个比较重要的 AI 成果：一个是自动驾驶，另一个和你投 Cerebras 相关，就是昆仑芯。

周楠：百度很早布局自动驾驶，而且最后坚持下来了。然后我当时投 Cerebras 的时候，也和昆仑芯当时的负责人交流过，那时他已经有一些想法雏形了。这么多年，百度能把昆仑芯做出来，很了不起。

晚点：你们百度前同事后来有复盘过美研这 15 年的得失吗？

周楠：大家心里还是挺唏嘘的。但作为一家中国公司，在美国做 AI 模型研发本身就会遇到很多阻碍。

2018 年左右，我和前老板想做一个独立的 AI 基金，就是已经预见到了风险。那时候很多百度美研出来的研究员都在创业，我们觉得这些人很厉害，应该把他们都投了。但最后基金还是没募起来。如果那时我已经做了五六年投资，可能很多事情会不一样。但当时我才做投资第二、第三年，还是太年轻了，撑不起这样一个基金架构。

晚点：你后来为什么离开百度？

周楠：主要是那个基金没法继续做下去，百度在美国也没有投资团队了。我带着这套投资判断去找了很多美国一线 VC，也没取得共识。刚好那时候高通抛来橄榄枝，希望在端侧 AI 找一些应用场景，我就很自然地加入了高通。

“非共识” 窗口变短，头部 VC 追逐晚期投资

晚点：可以聊一下你过去十年科技投资形成的判断，尤其是算力、半导体和 AI 基础设施这些方向。

周楠：我的投资主线一直比较清晰。在百度时，先是投算力，后来过渡到数据引擎、数据仓库；同时也看自动驾驶的软硬件结合。到了高通以后，因为公司很强调端侧 AI，我看了很多 IoT（物联网）和端侧设备，但我发现美国本土的硬件 IoT 不太容易起来，真正有落地场景的反而更多在中国。

ChatGPT moment 之后，我意识到大模型比我们当年在百度测算的时间早来了好几年。所以从 2022 年开始，我又把关注点转回云端 AI 基础设施。到 2023、2024 年，我判断企业 AI 会比大家想象中更快到来，当时也提过 coding AI 这个方向。后来 Cursor 起来，其实就验证了这一点。当时大模型时代的基础设施几乎是一片空白，所以从 2023 年到 2025 年，RAG（Retrieval-Augmented Generation，检索增强生成）、推理优化、模型部署，都是很重要的投资机会。

晚点：那现在的算力和云层面，你看到了什么机会？

周楠：推理成本优化会是很大的战场。推理成本最后会直接反映到毛利上，不管是模型公司还是应用公司，只要 token 成本降下来，商业模型都会改善。所以部署优化、多模态推理优化、token 优化，以及和云结合的基础设施，都会很重要。

这里面有一家叫 Eigen AI 的公司，今年被 Nebius 收购（注：交易价格约 6.5 亿美元），它就是很典型的推理优化公司。2025 年 8 月它刚成立，创始人是 MIT 教授韩松的学生。因为高通本身对端侧推理很敏感，所以我对推理优化这件事也很敏感。我觉得这会是后面端侧 AI 爆发后很关键的一件事，它会改变整个 AI 的商业模型。

晚点：韩松以前也和汪玉、姚颂、单翌一起联合创办过深鉴科技（中国 AI 芯片公司，曾主打深度学习处理器和模型压缩技术，后被赛灵思收购）。所以你说的是偏软件系统的第三方基础设施优化公司？

周楠：对，它可以通过对推理和 token 的优化，延展成和云相关的业务。因为它可以直接帮云上的客户优化模型部署和推理基础设施。无论对模型厂商，还是对应用公司，推理基础设施都会是一个非常重要的环节。

晚点：Cerebras 上市时，你说伟大的投资发生在形成共识之前。现在还有什么你相信、但市场还没形成共识的方向吗？

周楠：这个问题很难。因为现在 AI 已经是共识了，所有投资人都想找 “非共识”，窗口就变得非常短。当年投 Cerebras，到上市是十年；2022、2023 年投 OpenAI、Anthropic，也还有一个共识刚要形成、但没完全形成的窗口。但现在可能只有一两个月。

我去年给身边投资人写过一封信，没有公开。那时候我列的方向包括通用 agent，比如 Manus、Genspark；还有视觉模型、多模态、多模态基础设施，比如 Fireworks AI；以及 physical AI、vertical AI。但这些方向一旦出现，留给投资人的下注时间非常短。早期投资现在很难，你既要嗅觉敏锐，也要有很强的挑公司能力，在共识形成前就下手。

所以今年反而更容易投中后期。有几个方向已经跑出来了很大的 winner，很多头部 VC 也在募偏后期的基金，去砸这些已经出圈的公司。

晚点：那这还是风险投资吗？

周楠：风险投资的一种变种。传统 VC 是在没有共识前下注，但现在非共识到共识的窗口太短了，短到你还没反应过来，它就已经变成要花大价钱去投的公司。所以 VC 也在演变成募大基金，去投已经跑出来的公司。

如果把 AI 的周期拉长看，我们可能还处在早期。现在虽然已经有 winner，但它们会形成飞轮，越长越大。比如 Anthropic，未来如果到 5 万亿美元，我不觉得奇怪。

还有一些基础设施公司，比如 Fireworks AI、Together AI（AI 云和模型基础设施公司，提供开源模型推理、微调和 GPU 集群等服务）、Baseten（AI 推理基础设施公司，帮助企业部署、服务和优化机器学习模型），也已经形成早期飞轮，后面雪球可能滚得很大。所以现在很多人会直接下注这些 winner。

晚点：接下来你会期待什么事情发生？

周楠：我会看的一个方向是 physical AI。很多人说它像十年前的自动驾驶，但就像语言模型的泛化速度比我们想象中更快，我认为它的 aha moment 可能会比我们想象中来得早。现在可能是下注的好时候。

晚点：Physical AI 理论上不是比自动驾驶更难吗？

周楠：场景更复杂，但它对正确性的要求没有自动驾驶那么极端。自动驾驶必须接近 99.9% 正确，否则会出人命；physical AI 对任务完成度和准确率的要求，相对更宽容一些。另一方面也因为它还没有完全形成共识。

晚点：你觉得 physical AI 会带来新的芯片、算力和基础设施机会吗？

周楠：芯片层应该有机会。机器人真正落地时，不可能身上一直挂着高功耗 GPU，它需要低延迟、低功耗的算力方案。

另外，推理芯片也可能出现新的 CPU 架构。Cerebras 是已经出圈的路线，但未来也可能会有基于 CPU 方案的新公司出来，已经有很早期的创业公司在做了，这也很值得关注。

题图来源：Cerebras（创始团队 2022 年在计算机历史博物馆，从左至右依次为 Sean Lie, Gary Lauterbach, Michael James, Jean-Philippe Fricker 和 Andrew Feldman。）

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.