一个 Eval 函数的 38 亿年

38 亿年前，地球上出现了第一个能自我复制的分子。今天，我们在尝试让 AI 自主进化。

这两件事之间，隔着一个被严重低估的问题：eval 函数选什么？

碳基生命只有一个 Eval

生物进化没有 benchmark suite，没有 leaderboard，没有 human preference score。它只有一个判定标准——

活着，还是死了。

这个 eval 简单到粗暴：binary signal，零歧义，不需要 labeled data，不需要 reward shaping。你活下来了，你的基因就有资格参与下一轮。没活下来，无论多精巧、多优雅，都会被从基因池里抹掉。

38 亿年，这个函数从未改变。

复杂性不是目标

如果 eval 从不变，生物为什么变得如此复杂？

因为环境在变。

蓝藻靠光合作用活了下来，然后氧气积累成了毒药。单细胞够用了，直到多细胞的能吃掉你。眼睛是多余的，直到有眼睛的捕食者出现在你头顶。

单一不变的 eval + 持续变化的环境 = 策略空间被迫无限展开。

复杂性不是进化的目标，是存活在非稳态环境下的副产品。蓝藻到今天还活着——简单也是一种策略，只要你的生态位没被挤掉。

复杂性是进化的签名

这个逻辑推下去，会碰到一个意外的推论：复杂性本身就间接证明了进化论。

传统的进化论论证是归纳式的——化石记录、基因比对、物种分布，大量证据堆出结论。但上面这条链条是演绎式的：

前提一：eval 函数是存活（binary，不变）
前提二：环境非稳态

结论：复杂性必然涌现。

不需要设计者，因为这个结构自己就能生成复杂性。

反对进化论的人常问：“这么复杂的东西怎么可能没有设计者？”

恰恰问反了。这么复杂的东西，恰恰不可能有设计者。

设计者有目标，有目标就有方向，有方向就会剪枝。人类设计的系统——芯片、软件、建筑——每一处复杂性都有理由，都指向某个意图。而生物的复杂性是不剪枝的。阑尾、智齿、反转录转座子——基因组里充满了没有目的的残留。

有目的的复杂性是设计的签名。无目的的复杂性是进化的签名。

地球上的生命，满身都是后者。

AI 的 Eval 焦虑

回到 AI 这边。

我们造了多少 eval？MMLU、HumanEval、MT-Bench、Arena ELO、SWE-bench……每隔几个月就有新 benchmark 被提出，然后迅速被刷榜、饱和、质疑。

对比触目惊心：碳基用一个 eval 跑了 38 亿年，硅基用一千个 eval 还没跑出自主进化。

问题出在哪？

Benchmark 是人设计的，测量的是人认为重要的能力。但进化不是为了通过测试，是为了在环境中存活。测试可以作弊——teaching to the test、数据污染、过拟合。存活没法作弊。

自我编辑的权利

生物进化还解决了另一个关键问题：谁来修改系统？

碳基的答案：系统自己改自己。突变是随机的，重组是随机的，水平基因转移是随机的。自然选择不设计方案，只决定哪些修改能留下来。

设计和筛选，彻底解耦。

AI 的“进化”卡在这里。大多数 AI 系统的迭代都是人在改——人调 prompt，人设计 reward，人挑选哪个 checkpoint 上线。这不是进化，这是育种。

那 autoresearch 呢？让 LLM 自己提出假设、设计实验、迭代改进——这不就是让系统自己改基因吗？再加上 LLM-as-judge，让模型自己评估自己的输出——筛选也交出去了。

看起来很接近自主进化。但碳基进化 38 亿年来从未犯过一个错误：让改基因的和做筛选的是同一个主体。

突变是盲的，环境是冷的，两者互不知道对方的存在。正是这种无意图的解耦，才产出了真正的多样性。而 autoresearch + LLM-as-judge 恰恰把设计和筛选重新耦合了——系统自己改自己的基因，又自己批改自己的作业。策略空间会坍缩到模型自身的认知边界内。

这不是自主进化，是自我循环。

真正的自主进化，意味着系统有权修改自身，但由独立于系统的环境裁决修改的好坏。

这立刻引出一个尖锐的问题：我们敢把“自我修改”交给 AI，同时还能保证“筛选”是独立的吗？

时间是唯一的裁判

进化最容易被忽略的维度是时间。

不是 point-in-time evaluation——跑一次 benchmark，出分数，排名。而是 cumulative evaluation——你能在持续变化的环境中活多久？

蓝藻的策略谈不上精妙，但它活了 35 亿年。恐龙一度辉煌，但环境剧变面前，1.6 亿年的积累归零。

时间不评价你有多聪明，只评价你能不能一直活着。

AI 完全没有这个维度。模型没有“活着”的概念——训练、部署、替换。一个模型不需要存活，下一个版本随时取代它。这让 AI 的进化更像拉马克式的——每一代都是人刻意设计的改进——而不是达尔文式的。

寻找硅基的存活

如果碳基的 eval 是存活，硅基的等价物是什么？

不是“通过更多 benchmark”，不是“更高的 Arena ELO”。这些都是 point-in-time metric，不是 survival signal。

也许更接近的答案是：持续被需要。

一个 AI 系统如果能持续解决环境中的真实问题，它就不会被替换——这就是它的“存活”。不是物理意义上的活着，而是功能意义上的不可替代。

“持续被需要”跟“活着”有同样的结构特征：

足够简单，不需要人为定义 metric
自带时间维度，不是一次性评估
环境会变，策略必须进化

碳基与硅基的对位

把两条线索放到一起看：

	碳基	硅基
Eval 函数	存活	持续被需要
复杂性来源	不变的 eval + 变化的环境	同构
自我编辑	突变 + 重组 + 自然选择	设计与筛选尚未解耦
时间角色	唯一裁判	几乎缺席

碳基进化用 38 亿年证明了一件事：你不需要设计智能，你只需要一个足够好的 eval 函数和足够长的时间。

这或许是硅基自主进化最该学的一课——不是去设计更聪明的系统，而是找到那个不变的 eval，然后给它时间。

但硅基有一个碳基从未有过的选项：它可以选择自己的 eval 函数。

这到底是优势，还是诅咒？