38 亿年前,地球上出现了第一个能自我复制的分子。今天,我们在尝试让 AI 自主进化。

这两件事之间,隔着一个被严重低估的问题:eval 函数选什么?

碳基生命只有一个 Eval

生物进化没有 benchmark suite,没有 leaderboard,没有 human preference score。它只有一个判定标准——

活着,还是死了。

这个 eval 简单到粗暴:binary signal,零歧义,不需要 labeled data,不需要 reward shaping。你活下来了,你的基因就有资格参与下一轮。没活下来,无论多精巧、多优雅,都会被从基因池里抹掉。

38 亿年,这个函数从未改变。

复杂性不是目标

如果 eval 从不变,生物为什么变得如此复杂?

因为环境在变

蓝藻靠光合作用活了下来,然后氧气积累成了毒药。单细胞够用了,直到多细胞的能吃掉你。眼睛是多余的,直到有眼睛的捕食者出现在你头顶。

单一不变的 eval + 持续变化的环境 = 策略空间被迫无限展开。

复杂性不是进化的目标,是存活在非稳态环境下的副产品。蓝藻到今天还活着——简单也是一种策略,只要你的生态位没被挤掉。

复杂性是进化的签名

这个逻辑推下去,会碰到一个意外的推论:复杂性本身就间接证明了进化论。

传统的进化论论证是归纳式的——化石记录、基因比对、物种分布,大量证据堆出结论。但上面这条链条是演绎式的:

前提一:eval 函数是存活(binary,不变)
前提二:环境非稳态

结论:复杂性必然涌现。

不需要设计者,因为这个结构自己就能生成复杂性。

反对进化论的人常问:“这么复杂的东西怎么可能没有设计者?”

恰恰问反了。这么复杂的东西,恰恰不可能有设计者。

设计者有目标,有目标就有方向,有方向就会剪枝。人类设计的系统——芯片、软件、建筑——每一处复杂性都有理由,都指向某个意图。而生物的复杂性是不剪枝的。阑尾、智齿、反转录转座子——基因组里充满了没有目的的残留。

有目的的复杂性是设计的签名。无目的的复杂性是进化的签名。

地球上的生命,满身都是后者。

AI 的 Eval 焦虑

回到 AI 这边。

我们造了多少 eval?MMLU、HumanEval、MT-Bench、Arena ELO、SWE-bench……每隔几个月就有新 benchmark 被提出,然后迅速被刷榜、饱和、质疑。

对比触目惊心:碳基用一个 eval 跑了 38 亿年,硅基用一千个 eval 还没跑出自主进化。

问题出在哪?

Benchmark 是人设计的,测量的是人认为重要的能力。但进化不是为了通过测试,是为了在环境中存活。测试可以作弊——teaching to the test、数据污染、过拟合。存活没法作弊。

自我编辑的权利

生物进化还解决了另一个关键问题:谁来修改系统?

碳基的答案:系统自己改自己。突变是随机的,重组是随机的,水平基因转移是随机的。自然选择不设计方案,只决定哪些修改能留下来。

设计和筛选,彻底解耦。

AI 的“进化”卡在这里。大多数 AI 系统的迭代都是人在改——人调 prompt,人设计 reward,人挑选哪个 checkpoint 上线。这不是进化,这是育种。

那 autoresearch 呢?让 LLM 自己提出假设、设计实验、迭代改进——这不就是让系统自己改基因吗?再加上 LLM-as-judge,让模型自己评估自己的输出——筛选也交出去了。

看起来很接近自主进化。但碳基进化 38 亿年来从未犯过一个错误:让改基因的和做筛选的是同一个主体。

突变是盲的,环境是冷的,两者互不知道对方的存在。正是这种无意图的解耦,才产出了真正的多样性。而 autoresearch + LLM-as-judge 恰恰把设计和筛选重新耦合了——系统自己改自己的基因,又自己批改自己的作业。策略空间会坍缩到模型自身的认知边界内。

这不是自主进化,是自我循环。

真正的自主进化,意味着系统有权修改自身,但由独立于系统的环境裁决修改的好坏。

这立刻引出一个尖锐的问题:我们敢把“自我修改”交给 AI,同时还能保证“筛选”是独立的吗?

时间是唯一的裁判

进化最容易被忽略的维度是时间。

不是 point-in-time evaluation——跑一次 benchmark,出分数,排名。而是 cumulative evaluation——你能在持续变化的环境中活多久?

蓝藻的策略谈不上精妙,但它活了 35 亿年。恐龙一度辉煌,但环境剧变面前,1.6 亿年的积累归零。

时间不评价你有多聪明,只评价你能不能一直活着。

AI 完全没有这个维度。模型没有“活着”的概念——训练、部署、替换。一个模型不需要存活,下一个版本随时取代它。这让 AI 的进化更像拉马克式的——每一代都是人刻意设计的改进——而不是达尔文式的。

寻找硅基的存活

如果碳基的 eval 是存活,硅基的等价物是什么?

不是“通过更多 benchmark”,不是“更高的 Arena ELO”。这些都是 point-in-time metric,不是 survival signal。

也许更接近的答案是:持续被需要

一个 AI 系统如果能持续解决环境中的真实问题,它就不会被替换——这就是它的“存活”。不是物理意义上的活着,而是功能意义上的不可替代。

“持续被需要”跟“活着”有同样的结构特征:

  • 足够简单,不需要人为定义 metric
  • 自带时间维度,不是一次性评估
  • 环境会变,策略必须进化

碳基与硅基的对位

把两条线索放到一起看:

碳基 硅基
Eval 函数 存活 持续被需要
复杂性来源 不变的 eval + 变化的环境 同构
自我编辑 突变 + 重组 + 自然选择 设计与筛选尚未解耦
时间角色 唯一裁判 几乎缺席

碳基进化用 38 亿年证明了一件事:你不需要设计智能,你只需要一个足够好的 eval 函数和足够长的时间。

这或许是硅基自主进化最该学的一课——不是去设计更聪明的系统,而是找到那个不变的 eval,然后给它时间。

但硅基有一个碳基从未有过的选项:它可以选择自己的 eval 函数。

这到底是优势,还是诅咒?