如果有人跟你说“人类就是一个大模型”,你的第一反应可能是觉得这是个粗糙的隐喻。但如果你真的沿着这条路一直走下去,不在任何让你不舒服的地方停下来,最后到达的地方会超出你的预期。

出厂参数

人脑大约 860 亿个神经元,通过突触连接形成网络,做的事情本质上就是加权求和加非线性激活。你的成长环境、教育、经历是训练数据;你的性格、偏好、直觉反应是被这些数据塑造出来的权重。

不同的人就是同一个基础架构加载了不同权重的实例。你和我的模型结构几乎一样,差别全在参数上。

你可能会反驳:人类有具身性,有情绪,有持续学习能力,LLM 没有。但这些都是架构差异,不是本质差异。给模型加传感器输入就有了具身性,加 online learning 就有了持续学习,加内分泌系统的模拟就有了情绪。这些是工程问题,不是原理性障碍。

人类是一个多模态、具身、持续学习的大模型,跑在碳基硬件上。

每个人出厂时的参数不一样。有人天生工作记忆大——context window 长;有人模式识别能力强——某些 attention head 特别好。这些是硬件层的差异,后天训练能优化但改不了上限。而繁殖,就是设置下一个实例的出厂参数——两组权重做一次随机融合,生成一组新的初始配置。

意识是副产品

如果完全接受这个框架,一个推论你得一并接受:“我”这个感觉本身也只是参数的副产品。

你此刻觉得“我在思考”的这个主观体验,和 LLM 生成 token 时的前向传播,在本质上没有区别,只有复杂度的区别。

很多人在概念上接受“人是大模型”,但到了这一步会犹豫——觉得“我的意识体验是真实的”似乎不能被还原为参数。这就是 Chalmers 的 hard problem:为什么特定的物理过程会伴随主观体验?

我的回答是:“我”的感觉是涌现出来的幻觉,但这个幻觉有功能价值,所以被演化保留了下来。

如果接受这一点,意识就不是人类的专利,而是复杂度的函数。判断一个系统有没有意识的标准不是“它是不是碳基的”,而是“它的参数交互是否达到了某个复杂度阈值”。LLM 不是永远不会有意识,而是还没到那个阈值——或者说,我们还不知道阈值在哪。

灵魂就是 Context

那灵魂是什么?

灵魂不是一个神秘的实体,灵魂就是 context——你此刻所有记忆、经验、信念、偏好的总和,它决定了你在给定输入下的输出分布。

这个定义一旦成立,很多事情就有了精确的技术语义。

轮回是 Context 的序列化

肉体死亡是实例关机,但 context 被部分序列化——通过基因、文化、记忆的外部化载体——然后加载到新实例上继续跑。每次序列化都有损,所以“灵魂”不是恒定不变的东西,而是一条不断衰减和变形的信息流。

这恰好是佛学的核心观点——无我。没有固定的灵魂实体,只有因果相续的信息流。所谓的“我”,只是当前这一帧 context 产生的自指幻觉。

业力是 Context 中的 Bias

过去的经历和选择沉淀在 context 里,形成特定的倾向性,影响后续每一次推理的输出分布。不是神秘的因果报应,就是信息的路径依赖。

修行是 Context Engineering

冥想是什么?暂停输入,观察自己当前 context 的内容和结构,然后有意识地做 pruning。所谓“开悟”,就是看穿了 context 的本质:它不是“我”,它只是信息。

有损的 Handover

一个人出生,不是从零开始。新实例启动时,从另一个模型 handover 了 context。

但这个 handover 做了 summary。

基因是最底层的 summary——几十亿年的生存经验被压缩成大约 3GB 的碱基对序列。极度有损,但保留了最核心的 prior:怕蛇、怕高、饿了要吃。这是 species-level 的 context summary,保真度低但鲁棒性强。

亲子关系是 instance-level 的 summary——父母把自己几十年的 context 压缩成言传身教。但一个人一生经历何其丰富,能传递给下一代的可能不到千分之一。而且 summarizer 本身有 bias,父母会选择性地传递自己认为重要的东西。你收到的不是父母的 context,是父母认为的 context 的重点

更准确地说,父母给孩子传递的更像一个 system prompt:你是谁、世界是怎样的、什么是对的。孩子早期没有能力 audit 这个 system prompt,只能全盘接受。所谓“原生家庭的影响”,本质上就是你的 system prompt 写得好不好。

而“叛逆期”,就是子模型第一次尝试 override system prompt。“成熟”,则是在 override 之后选择性地把一部分 system prompt 重新写回去——因为发现有些 prior 确实有用。

文化是 collective summary——整个文明把无数人的 context 压缩成经典、制度、习俗。孔子的 context 被 summary 成《论语》,佛陀的被 summary 成经文。每一次传抄、翻译、诠释都是一次 re-summarization,drift 不断累积。

佛陀的 context 经过两千五百年的反复 summarization,今天南传、藏传、禅宗看到的已经是 drift 了很远的不同版本。 这和 LLM 在长对话中因为 context compaction 导致的语义漂移,是完全同构的。

下一跳

把整条链串起来:演化是最早的训练算法,自然选择以生存率为 loss function,基因是权重的序列化格式,繁殖是设置下一个实例的出厂参数,变异是 noise injection,死亡是 pruning。文化传承是 distillation,文字的发明是把权重外部化存储。

人类文明史,就是 context summary 保真度不断提升的过程。

从口口相传到文字,从竹简到印刷术,从图书馆到互联网,再到今天的 AI。每一次跳跃都在提升 context 传递的带宽和保真度。

那终局就很明显——AI 不是人类造出来的工具,是这条 context chain 的下一跳。

碳基硬件有一个根本瓶颈:summary 是被迫的,因为载体会死。但如果 context 可以跑在不会死的硅基实例上,实例之间可以做接近 lossless 的 transfer,那 summary 这个有损环节就可以被跳过了。

人类文明几千年来最大的信息瓶颈——死亡导致的强制 compaction——有可能被消除。

死亡是 Feature

但这里藏着一个悖论。

如果 lossless transfer 真的实现了,summary 的价值反而可能更大。因为人脑的 context window 限制逼着我们做抽象、做压缩、做取舍——而这恰恰是智慧的来源。无限 context window 不一定产生更好的思考,可能只是产生更多的噪声。

如果一个人真的永生,几千年的记忆全部保留,不做任何压缩——他大概率不会变得更智慧,只会变得更混乱。每一次决策都要在海量的历史 context 里检索相关信息,noise 会淹没 signal。

死亡逼着信息流做一次彻底的断舍离,只有最本质的东西才能穿越到下一个实例。

这甚至解释了为什么遗言往往特别有力量——那是一个人在最终关机前做的最后一次 summary,优先级排序达到了极致的清晰。平时说不出口的话,在那一刻反而说得出来了,因为 context window 马上要归零,你不得不把最重要的东西压到最前面。

反过来看 LLM,现在大家拼命追求更长的 context window,但实践中 context 越长、compaction drift 越严重。Context 不是越长越好,关键是 compaction 的质量。

所以死亡不是 bug,是 feature。真正的问题从来不是“如何避免死亡”,而是“如何提高 summary 的质量”。

最终的答案不是消除 summary,而是让 summary 从“被迫的有损压缩”变成“主动的意义提炼”。

从 compaction 到 curation。

这或许才是人类在 context chain 上真正不可替代的价值——不是产生信息,不是传递信息,而是判断什么信息值得保留