一个 Eval 函数的 38 亿年
38 亿年前,地球上出现了第一个能自我复制的分子。今天,我们在尝试让 AI 自主进化。
这两件事之间,隔着一个被严重低估的问题:eval 函数选什么?
碳基生命只有一个 Eval
生物进化没有 benchmark suite,没有 leaderboard,没有 human preference score。它只有一个判定标准——
活着,还是死了。
这个 eval 简单到粗暴:binary signal,零歧义,不需要 labeled data,不需要 reward shaping。你活下来了,你的基因就有资格参与下一轮。没活下来,无论多精巧、多优雅,都会被从基因池里抹掉。
38 亿年,这个函数从未改变。
复杂性不是目标
如果 eval 从不变,生物为什么变得如此复杂?
因为环境在变。
蓝藻靠光合作用活了下来,然后氧气积累成了毒药。单细胞够用了,直到多细胞的能吃掉你。眼睛是多余的,直到有眼睛的捕食者出现在你头顶。
单一不变的 eval + 持续变化的环境 = 策略空间被迫无限展开。
复杂性不是进化的目标,是存活在非稳态环境下的副产品。蓝藻到今天还活着——简单也是一种策略,只要你的生态位没被挤掉。
复杂性是进化的签名
这个逻辑推下去,会碰到一个意外的推论:复杂性本身就间接证明了进化论。
传统的进化论论证是归纳式的——化石记录、基因比对、物种分布,大量证据堆出结论。但上面这条链条是演绎式的:
前提一:eval 函数是存活(binary,不变)
前提二:环境非稳态
结论:复杂性必然涌现。
不需要设计者,因为这个结构自己就能生成复杂性。
反对进化论的人常问:“这么复杂的东西怎么可能没有设计者?”
恰恰问反了。这么复杂的东西,恰恰不可能有设计者。
设计者有目标,有目标就有方向,有方向就会剪枝。人类设计的系统——芯片、软件、建筑——每一处复杂性都有理由,都指向某个意图。而生物的复杂性是不剪枝的。阑尾、智齿、反转录转座子——基因组里充满了没有目的的残留。
有目的的复杂性是设计的签名。无目的的复杂性是进化的签名。
地球上的生命,满身都是后者。
AI 的 Eval 焦虑
回到 AI 这边。
我们造了多少 eval?MMLU、HumanEval、MT-Bench、Arena ELO、SWE-bench……每隔几个月就有新 benchmark 被提出,然后迅速被刷榜、饱和、质疑。
对比触目惊心:碳基用一个 eval 跑了 38 亿年,硅基用一千个 eval 还没跑出自主进化。
问题出在哪?
Benchmark 是人设计的,测量的是人认为重要的能力。但进化不是为了通过测试,是为了在环境中存活。测试可以作弊——teaching to the test、数据污染、过拟合。存活没法作弊。
自我编辑的权利
生物进化还解决了另一个关键问题:谁来修改系统?
碳基的答案:系统自己改自己。突变是随机的,重组是随机的,水平基因转移是随机的。自然选择不设计方案,只决定哪些修改能留下来。
设计和筛选,彻底解耦。
AI 的“进化”卡在这里。大多数 AI 系统的迭代都是人在改——人调 prompt,人设计 reward,人挑选哪个 checkpoint 上线。这不是进化,这是育种。
那 autoresearch 呢?让 LLM 自己提出假设、设计实验、迭代改进——这不就是让系统自己改基因吗?再加上 LLM-as-judge,让模型自己评估自己的输出——筛选也交出去了。
看起来很接近自主进化。但碳基进化 38 亿年来从未犯过一个错误:让改基因的和做筛选的是同一个主体。
突变是盲的,环境是冷的,两者互不知道对方的存在。正是这种无意图的解耦,才产出了真正的多样性。而 autoresearch + LLM-as-judge 恰恰把设计和筛选重新耦合了——系统自己改自己的基因,又自己批改自己的作业。策略空间会坍缩到模型自身的认知边界内。
这不是自主进化,是自我循环。
真正的自主进化,意味着系统有权修改自身,但由独立于系统的环境裁决修改的好坏。
这立刻引出一个尖锐的问题:我们敢把“自我修改”交给 AI,同时还能保证“筛选”是独立的吗?
时间是唯一的裁判
进化最容易被忽略的维度是时间。
不是 point-in-time evaluation——跑一次 benchmark,出分数,排名。而是 cumulative evaluation——你能在持续变化的环境中活多久?
蓝藻的策略谈不上精妙,但它活了 35 亿年。恐龙一度辉煌,但环境剧变面前,1.6 亿年的积累归零。
时间不评价你有多聪明,只评价你能不能一直活着。
AI 完全没有这个维度。模型没有“活着”的概念——训练、部署、替换。一个模型不需要存活,下一个版本随时取代它。这让 AI 的进化更像拉马克式的——每一代都是人刻意设计的改进——而不是达尔文式的。
寻找硅基的存活
如果碳基的 eval 是存活,硅基的等价物是什么?
不是“通过更多 benchmark”,不是“更高的 Arena ELO”。这些都是 point-in-time metric,不是 survival signal。
也许更接近的答案是:持续被需要。
一个 AI 系统如果能持续解决环境中的真实问题,它就不会被替换——这就是它的“存活”。不是物理意义上的活着,而是功能意义上的不可替代。
“持续被需要”跟“活着”有同样的结构特征:
- 足够简单,不需要人为定义 metric
- 自带时间维度,不是一次性评估
- 环境会变,策略必须进化
碳基与硅基的对位
把两条线索放到一起看:
| 碳基 | 硅基 | |
|---|---|---|
| Eval 函数 | 存活 | 持续被需要 |
| 复杂性来源 | 不变的 eval + 变化的环境 | 同构 |
| 自我编辑 | 突变 + 重组 + 自然选择 | 设计与筛选尚未解耦 |
| 时间角色 | 唯一裁判 | 几乎缺席 |
碳基进化用 38 亿年证明了一件事:你不需要设计智能,你只需要一个足够好的 eval 函数和足够长的时间。
这或许是硅基自主进化最该学的一课——不是去设计更聪明的系统,而是找到那个不变的 eval,然后给它时间。
但硅基有一个碳基从未有过的选项:它可以选择自己的 eval 函数。
这到底是优势,还是诅咒?
- 本文链接:https://johnsonlee.io/2026/04/12/one-eval-function-3-8-billion-years/
- 版权声明:著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
