Logo
Loading...
GruAI 张海龙:产品形态只是表象,Cursor 与 Devin 终有一战|AI 产品十人谈
GAIR DAO 2025-05-09

试验性收入不是经常性收入,AI Coding 泡沫有多大?

作者丨梁丙鉴

编辑丨马晓宁

自2022年12月 ChatGPT 作为现象级产品问世以来,“AI 改变世界” 的技术叙事已持续30个月,但实际落地的产品寥寥。这种技术创新和实际应用之间的差距,也让越来越多人开始冷静思考AI的发展究竟走到了哪一步。

“ AI Coding 是这一波 AI 创业浪潮中,现在为数不多能看到 PMF 的行业。”今年以来,AI 科技评论在与业内人士的交流中,听到多位创业者和投资人反复提起这句话,AI 编程是当前 AI 应用领域落地商业化的领头羊,已经成为业界共识。

火热程度在硅谷和国内都相继得到印证。除了领头羊 Cursor 之外,Poolside 和 Magic 两家公司在没有发布任何产品的情况下,估值飙升至 30 亿美金,Windsurf 已经被 OpenAI 收购,Lovable 创下欧洲增长最快的公司记录。

国内最为活跃的创业圈子也在这里。月之暗面产品经理明超平,创办的新公司新言意码还在水面之下,就已经拿到了 8000 万美金的估值。字节 5-1 高管陈志杰离职,也是直奔 Coding 而来。

2025 被称为 AI 应用大爆发的一年,浪潮来临之时,AI 科技评论将邀请最优秀的创业者一对一交流,以《AI 产品十人谈》的系列文章,发表他们对于 AI 能力边界的独到见解,展示他们对于 AI 产品创新的深度认知,共同讨论大模型的潜流将会走向何方,而我们又能在这场罕见的技术变革中抓住哪些机会。

有鉴于 AI Coding受到的广泛关注,我们也选择了这个主题作为系列开山之作。Babel 创始人张海龙,曾在卡耐基梅隆大学取得计算机硕士学位,并且连续多次创业,并将自己的上一家公司 CODING 成功卖给腾讯。在 GPT-4 出来之前,他就选定了这个创业方向,至今已有两年时间。

在此次对话中,张海龙回答了最受行业关注的那些话题:

  • AI Coding 的现状与主要方向;
  • 模型能力的进步对 AI Coding 的影响;
  • 海内外不同的 AI Coding 创业环境;

……

以下是AI科技评论与张海龙的对话全文,为方便阅读,进行了不改变原意的文字调整。


1、Cursor , Lovable 还是 Devin ?

AI科技评论:最近 AI Coding 赛道炙手可热,Cursor 估值已经突破 100 亿美元,Lovable 的 ARR 也在飙升,几乎所有投资人都在关注这个赛道。你作为这个赛道的局中人,怎么看现在这个行业的火热?

张海龙:实话实说,我觉得它的发展是超出了我去年的想象。Cursor 整个发展曲线如此之陡峭,超出了所有人的预期。

所以很多投资人愿意积极地去看这个领域,因为 AI Coding 似乎是最容易找到 PMF 的一个赛道。但是这个行业的火热有些被媒体过于夸大了。实际上除了 Cursor 外,在这个赛道里面真正找到 PMF 的产品并不多。其他的 AI 产品你会发现它要么关注在一个很小的点上,要么就是续费特别差,没有什么留存。哪怕是目前非常火热的 Lovable ,他可能也并不 solid 。

AI科技评论:你提到 Lovable 这个产品可能并不 solid,能不能展开讲讲?

张海龙:前两天有篇文章我觉得讲得特别好,就是海外的一个投资人说现在要识别创业者的数字游戏,你如何判断这到底是个 ARR,到底是个 recurring revenue 呢,还是一个 experimental revenue。

Lovable 是一个非常典型的例子,他的 aha moment 非常惊艳,来的很快,来的很早。我周围很多朋友都试用了 Lovable 给出了正面的评价。但是过了一个月之后你再问他们,都没有持续地在用这个东西。那到底是谁在什么时候用 Lovable 解决了什么问题?

所以我们可以看到, Lovable 的流量在一些监控平台已经显示不再增长。就像 Midjourney 过了风口之后还有多少人仍然在付费?很残酷的事实是很多人对产品没有持续性的需求。AI Coding,2C 领域的火热可能来得快去的也快,并且从终局角度来说,Devin 和 Cursor 如果能做复杂工程,肯定也能做 Lovable 的事情。但有人尝试肯定是好的。

AI科技评论:据你观察,Cursor 是怎么找到 PMF 的?

张海龙:我不认为 Cursor 是主动去寻找了 PMF。他们就是胆子大,看到了机会,上来就是莽,去做 Copilot、做 IDE。在 23 年初没有人看好这个方向,因为历史已经反复证明做一个 IDE 不是好生意,没人意识到 AI 带来的巨大变量会根本性的改革这个行业。而且那个时候 Github Copilot 已经被大规模采用,是市场上绝对的 number one。Cursor 在这样的赛道创业,大部分人都不理解。

所以我觉得他们不是在尝试,而是认定他们就要做这件事情,然后这件事刚好就在一个正确的方向上。他们很聪明,但他们的运气也特别重要,在巨大的非共识下找到了机会,并且没有熬很久,很快模型的能力就匹配上了他们的需求,进入了 Product - Model 和 Product - Market 的双重 PMF。

但我觉得这里面我想讲另外一个点就是,为什么这么多人都错过了 Cursor?包括我们。我们在 2023 年的时候,上半年那个时候认真地看过 Cursor,当时我们把这个方向给否了。哪怕把你放在那个时候再去看,你还是会错过,因为你的从业经历告诉你 IDE 不是一个好赛道。历史上干这件事情几乎没有人干成的。IDE 这个赛道本来也很小,在 AI 出现之前,用户对这类产品的付费意愿和付费能力都有限,导致市场规模很小。但是 AI 的出现显著扩大了整个市场的规模。很多人,包括我们自己,曾低估了这种体验提升的价值——在 2023 年,如果没有亲自体验过 Cursor,真的很难想象它带来的变化。

所以 Cursor 的成功,甚至不是 PMF 的成功,他是创造了一个新的市场。

AI科技评论:你觉得 Cursor 的成功带给创业者什么启示?

张海龙:Cursor 做得很好的一点是 UI。

包括我们在内的很多 AI Coding 创业公司都踩了一个巨大的坑,就是我们要把人类从工作流中拿掉,这个时候 UI 是不重要的,人类的 input 也很难介入。但事实是 Agent 很难全自动地完成一件复杂的事情,Cursor 通过 UI 构建了一个合理的用户和 AI 交互的平台,让用户很容易地接受那些 AI 无法独立完成的情况。

这给整个行业带来了一个启示:“智力”都是由大模型提供的,应用层在上面构建工程和行业知识。这是所谓的“套壳” OpenAI,而 UI 是行业知识的具体体现,UI 的价值远比想象中大。ChatGPT 这种“chat ui”在具体的垂直场景的信息交换效率是远远不够的,目前行业普遍的反思,就是应该做一个人类能够介入的 UI,让人类跟 Agent 有信息交换的平台。

今天你会看到很多新的创业公司,包括一些硅谷公司,会说我是某个领域的 Cursor,这就像 14、15 年有人说我是一个 Uber for whatever,大家就很容易理解。

AI科技评论:最近微软似乎对 Cursor 做了一些限制,会对 Cursor 造成实质性影响吗?

张海龙:这也是最近整个创投圈在讨论的一个问题。我觉得微软动作慢了。Cursor 已经是一个百亿美金公司了,你再做这种 license 上的限制,它到底能有多大的影响呢?从开发者的角度来看 Cursor 好用我就用 Cursor。微软这是在逼 Cursor 自己扶持自己的生态。

微软有没有可能进一步收紧协议,彻底改变 VS Code 的开源协议,禁止二次开发?我觉得这种可能性很小。这样做会带来巨大的声誉损失,对微软来说完全没有必要。

AI科技评论:Devin 在去年这个时候爆火,但一年过去了,似乎没有 deliver 对应的期待,是不是这个方向有问题?

张海龙:Devin 在去年这个时候是火遍全球的一个概念。我觉得它特别好的传递了什么是 Agent,Agent 应该能做什么。但是目前它并没有很好的 deliver 这个 vision。我不认为 Devin 是失败的,我只是说它还没有成功。

为什么这么说呢?Devin 想做的事情,野心有点过大了,时间周期会非常长。类似的还有,Magic 和 Poolside。这两家公司融了很多钱,到今天也看不到产品的。他们号称是要从零开始训练底层模型去干这件事情。

做一个端到端的 AI Developer 这条路确实非常的艰难,但 Devin 融了足够多的钱,可以慢慢做。而且最近 AI 的发展让我觉得 Devin 成功的可能性在变大。

从我的视角看,Cursor 和 Devin 终有一战。这个赛道才刚开始,还有很大的发展空间,当前的产品形态啥的可能都不太重要,大家最终要 build 的能力,解决的问题都是类似的。


2、从 Babel 到 Gru,从定制化到通用化

AI科技评论:聊到 Devin,我们就可以聊一聊您现在在做的 Agent 产品了,一年前我们交流的时候你们的产品叫 Babel,现在叫 Gru,这只是一个名字的变化吗?还是说有一些方向上的调整?

张海龙:Both。首先我们公司的名字还叫 Babel Cloud,只是推出了一个叫 gru.ai 的产品。我很喜欢 Gru 这个名字,而且 gru.ai 确实是个好域名。

但确实我们经历了一次转型。我们最早在做 Babel 的时候其实做了大量的软件工程的抽象。有点类似于 replit 做的事情,我们把一些软件工程概念给它抽象出来,然后让这个整个开发会变得更加的直观。但是随着 AI 能力的进步,我们意识到这个抽象是多余的。 AI 已经更好的理解工程概念了,额外的抽象可能反而是个负担。所以我们从一个更定制化的软件工程转到了一个更通用化的软件工程方向上。



AI科技评论:你觉得软件工程团队会接受 Devin 或者 gru.ai 吗 ?

张海龙:当然会。gru.ai 会像一个真正的开发者一样在你的团队里工作。

假如有个人类工程师,和一个 AI 工程师。我给他们俩同时 assign 一个 issue。最后他们提交过来一个 pull request。整个过程,你能分辨出来哪个是人吗?就像现在有很多远程工作者,他们从来不见面。那你知道他真的是个人吗?

我坚信这件事情会发生,甚至可能在明年就会发生。事实上你看 gru.ai 在单元测试这件事情上面,已经事实上替代了很多的人类工程师的工作了。

我并不觉得我们在颠覆软件工程,我们只是用 AI 的方式去把软件工程中很多的人力解放出来,让人关注更高级的,更有创造力的价值的这些工作。

AI科技评论:按照你去年对代码生成水平 L1 到 L5 的划分,你认为现在的代码生成发展到什么阶段了?

张海龙:我认为过去这个 L1 到 L5 的划分可能并不合理。当然这个划分方式有助于大家理解,但 L1 到 L5,不能脱离他所处的环境去讨论。就像自动驾驶,你可以在很小的园区里面搞自动驾驶,这早就实现了,但没意义嘛。

我们现在更关注的是一个更普遍的,更宽泛的企业级场景下的软件工程问题。那这个场景下如果你能做到 L4 或者 L5,那你的价值会非常大。我认为现在这一点目前做不到,可能 L3 都很勉强。

AI科技评论:你们和理想中的 Ultimate AI Developer 的差距在哪里?

张海龙:就像我说的,现在连 L3 都做不到,所以这个 Ultimate AI Developer 还有点远。

这里面有很多问题,就比如说模型的智力问题,Agent 的工程水平问题,稳定性问题,上下文长度问题。这些问题起码一年之内还没能看到解决的希望。现有的增加上下文长度的技术也并不成熟,比如 RAG,可能最终会被认为是一个过渡性技术。

长期来看,我对这件事始终充满信心。过去两年,模型的发展解锁了许多全新的应用场景,而且这一进步还在持续加速。最近,OpenAI 也在文章中提到,他们花了大量时间解决模型的基础工程问题。在没有完善基础设施的情况下,模型的训练和评估速度都会受到很大限制。正因为 OpenAI 持续投入基建,我们才能看到今年他们频繁的产品和模型发布,这正是基础设施升级带来的成果。

随着整个行业基建的成熟,这个行业的发展会越来越快。所以虽然当前离目标仍然很远,但行业进入了加速阶段。


3、Coding Agent 的未来:多元繁荣还是赢家通吃?

AI科技评论:聊到模型厂商,就不得不提到现在模型厂和大厂都在切入代码生成这个赛道,你觉得创业公司的竞争力在哪里?

张海龙:其实我并不太关注大厂的竞争。无论你做什么,大厂几乎都会涉足。没有必要过度担心大厂的动作。互联网时代也常有人问:“你做这个,如果腾讯也做了怎么办?”但创业的初心很重要,最根本的是你是否真的喜欢这件事。如果你想做,就应该去做。

大公司涉猎的领域太多,资源和人才都是有限的,领导的关注点也有限。分配到某个具体项目上的资源,未必比创业公司更多。而且,资源不仅仅是人和钱,更重要的是人才的质量:大厂分配到这个项目上的人,是否真的热爱这件事?他们的动机是什么?大厂的运作机制本身就容易导致资源错配。只要你做的事情不在大厂的主赛道上,其实不用太担心他们的竞争。

当然,也有例外。如果你做的是底层大模型,这确实需要重视大厂的竞争,因为很多大厂会把大模型作为主赛道,投入大量资源。还有一种情况是,当你的业务已经实现了 PMF,行业内已经有了明确的做法,这时对人才的要求会降低,大厂也更容易调配资源来进入这个领域。比如你现在要做一个类似 Cursor 的产品,那就需要正面迎战像字节这样的公司。这个时候,你就必须在现有产品形态上做出完全不一样的创新,就像 Cursor 挑战 Github Copilot 那样。

AI科技评论:现在有一种观点是模型即应用,大模型没办法满足 Agent 创业者对于 AGI 的追求,所以他们要做自己的小模型,你们直接基于 GPT-4o 搭建产品,而非自训练小模型,是出于什么考虑?

张海龙:因为大模型的进步会吃掉你在细节上的一些努力。

我们有做一些 post-train 也就是 fine-tune,因为确实可以提高一定的准确率。但是你会发现在 OpenAI 这么快速的更新之下,GPT-4.1来了,他不做 fine-tune 的效果比你做 fine-tune 的效果还要好。

Pre-train 一样的,现在看可能成本更低或者速度更快,但是这个领先可以持续多久呢?大模型一定会越来越便宜越来越快的。

但有一种情况做 pre-train 是有价值的,那就是你的数据是独特到大模型无法拥有的。比如 Cursor 的 tab 的数据,基于这些数据做的小模型才有价值。

AI科技评论:您刚刚提到模型智力在今年有明显的提升,具体带来了哪些能力的实质性进步?

张海龙: GPT-4 在 23 年 3 月份出来的时候,又慢又贵。Cursor 这样的体验是不可能基于 GPT-4 做出来的。Cursor 的变量来于 Claude 3.5,又快又好。但是快和好都是相对的。3.5 到今天来看可能也不是又快又好了。

模型过去这两年里面虽然是挤牙膏式的进展,每一次看都好像没有太大变化。但是你累积下来看,你会发现今天的 GPT-4.1 和两年前的 GPT-4,虽然版本号只变了 0.1,但实际上无论是速度、稳定性、指令遵循、上下文长度都有巨大的变化。这些变好使得你原来不可能做的场景变得有可能。包括我们在内,我们做的很多 Agent 的场景,以前需要做很多工程的方式去弥补模型的不足,但今天看来都是没有意义的雕花。

所以对于今天的创业者来说,应该区分自己所面对的问题,哪些是要等待模型发展的,哪些是不会被模型发展吃掉的真正的产品力。最终 Agent 的能力来自模型和工程的叠加效果,这是一个综合能力。

AI科技评论:现在海内外还有哪些产品和你们存在直接竞争?

张海龙:那可太多了。有个投资人说开玩笑说在旧金山一个 zip code 就能找出来 20 家 AI coding 公司。但每个切入点都不太一样。做 code review,document,test,端到端生成的,什么都有。所以我觉得这个赛道的竞争其实是非常激烈的,只是大家的切入点会不太一样。但是大家的 ultimate goal 都是类似的,最后都想要成为 AI developer。

但是国内事实上,看到的竞争不多。这里面原因很复杂,比如大家不愿意投 2B 的项目,比如觉得看不清楚,想看海外有品类跑出来。

AI科技评论:你刚才提到了很多品类,可能对于不太了解这个行业的人来讲会比较晕,能不能帮我们简单归类总结一下?

张海龙:在给 AI 编程工具分类时,首先要看目标用户是谁。如果是非专业用户,产品就要像 Lovable 那样,输入以文字或文件为主,输出也更偏向可视化,不能太多底层技术细节。而面向专业用户时,又可以细分为 IDE、Copilot 或 Agent 等不同形态。Agent 还可以分为通用型和垂直领域型。

但我觉得这些分类方式其实有些表面。无论是 Agent、Copilot、IDE 还是插件,本质上都是不同的产品形态或交互方式,核心还是在于能否真正解决用户的问题。比如 Cursor 适合专业用户,因为它暴露了更多底层概念,支持深度交互;Lovable 则适合小白用户,界面更简单。其实底层能力是类似的,只是“外壳”不同。

真正的 AI Developer,既能解决复杂企业级场景,也能满足非专业开发者的需求。所以我认为,像 Cursor 或 Devin 这样的产品, 最终完全可以覆盖 Lovable 那类用户,因为 Lovable 的交互界面其实并不复杂。我们现在坚持做企业级 Coding Agent,就是基于这样的判断。产品形态只是表象,核心还是底层能力和能否满足不同用户的实际需求。


AI Coding产品象限图,图源受访者


AI科技评论:未来的 Coding Agent 会百花齐放还是少数几家瓜分市场?

张海龙:目前还不是很明朗。Coding Agent 需要很多个 Cursor 吗?还是需要很多个Devin?好像不需要。但也有可能企业内部就是需要个性化的 Coding Agent。这个问题等到今年年底我可能就清楚了,因为当我们的Agent进入严肃的企业场景开始工作的时候,我们就会看到是不是存在大量的不能被抽象的个性化。这个时候我们才能回答,企业会不会有大量定制自己 Agent 的需求这个问题。

我觉得这也是 Infra 公司要思考的问题。如果你要做 Agent Infra,那你实际上在赌未来 Agent 会百花齐放,会有很多公司要做自己个性化的、复杂的 Agent,这样 Agent Infra 才有价值。如果最后每个领域只有几个大的 Agent,那就没有人买 Infra。


4、如何看待 AI Coding 赛道的创业环境

AI科技评论:我们刚刚也有聊到 AI Coding 这个赛道硅谷有非常多的公司对吧,其实也说明它的投资是非常繁荣的,但是我们同时看到在国内的融资情况似乎远远比不上硅谷,你觉得这是因为什么?

张海龙:几个原因吧。第一是这个赛道是美元基金会比较愿意投的方向,风险大,收益高。但美元本身受到整个地缘政治各方面的原因受到影响比较大。

第二个原因是,创业环境上也有很大差异。大家有一个误解就是硅谷的项目都很牛逼,其实不是,平均水平甚至更差,因为天使轮,种子轮太容易拿了。硅谷的基金非常非常多,一个 zip code 有 20 个 AI Coding 创业公司,同理,一个 zip code 可能有 20 家 VC。大家都在投初创公司,初创公司又有各种效率和服务的需求,相互就容易找到天使客户,所以这个生态特别好。

第三,国内还有一个确实有行业环境的问题。国内过去成功的项目大部分都是 2C 的。但 AI Coding 这个东西,真正的市场,是 2B 的。中国以前被 2B 伤到的投资人可太多了,听到 2B 就扭头就跑。这也造成了中国的 AI Coding 创业者上来就考虑 2C 的市场,因为这样才能融到钱。

但大家都悲观的时候,可能是发育的好机会。企业的需求是客观存在的,只是需要一个适当的产品和服务模式去满足他。

AI科技评论:Gru.ai 现在规模如何,你对公司的未来规划是什么?

张海龙:我们和 Devin 的最终目标是一样的,就是让你可以交给 Agent 一个任务,他完成了之后你验收就好了,和一个员工没什么两样。但我们选择的是一条逐步商业化的路,AI 做软件工程需要很多能力,比如文件编辑,代码分析,环境设置,需求理解,需求验收等等能力,我们构建出了代码分析、环境设置等等能力之后,就可以去做一个单元测试场景的产品,这个产品可以有足够高的准确率支持商业化。我们再去构建需求理解,需求验收的能力,那我们就可以做 e2e 之类的场景。这么逐步的商业化一方面对融资要求没有这么高,另外一方面我们可以在垂直场景里打磨能力,有的放矢的进行提升。

创业分两种,一种是 Devin,这样拿大钱,只干终极形态。但大部分创业者不行,只能先做个机器狗,或者做一个没有腿的机器人,每一步都要证明自己的商业价值。这是第二种创业。

我觉得这些证明不是白费的,都是给你想做的那个终极形态赋能。所以我们的发展路径其实非常简单,就是扎扎实实把每一个细分都做到头部。我相信这些细分带来的综合能力,都会回馈到我要做的 General Agent 上。

我们保持在十来个人的规模,之前的主要工作是在构建能力。但今年开始我们逐步把一些能力做成商业产品提供给客户,比如有的客户的单元测试代码已经基本是由 Gru 提交的了。验证的效果还不错,客户也愿意付费,但我觉得我们仍然还未到 PMF 的地步,期望今年可以把门槛和成本都降下来,达到 PMF 。

AI科技评论:你在 Agent 领域创业快两年了,有哪些想法改变了?

张海龙:最大的变化来自于,我在 23 年下半年,觉得 AI 替代程序员会很快发生。因为大家现在看到的那些 fancy 的效果,我们在当时就做了出来。但事实证明这个东西在复杂工程上的准确性提升比我想象的慢很多。之前对于 LLM 不同工作场景的分析是不够的,对于 AI 智力和上下文增长的判断也是过于乐观的。

从今天的视角来看这个问题,我们看到了他从 10 分变成了 20 分,也看得后续提高的方向,但确实离终极形态还很远,还有很大的空间。

这是创业很有意思的地方,你在任何时候都能找到逻辑自洽的分析,但你不知道自己漏掉了什么,回头再看的时候,你总能找到自己当年没有考虑到的地方。从这个角度看,创业是打德州,不是下象棋,你永远都在信息不全的情况下做判断。作为创业者,能做的就是尽人事,听天命。