上海还是那个上海,少年已不是那个少年
五一假期,从首尔飞上海,距离上一次踏上这片土地,整整十二年。到了酒店把孩子们安顿好,晚上带夫人去了 The Stage 玉兰观景台,三百多米高,俯瞰整个陆家嘴和黄浦江。出舱门的那一刻,看着脚下铺开的灯光,我突然意识到,十二年前我也在这片土地上,只不过那时候,我是站在江对面,仰着头看这边的塔尖。
五一假期,从首尔飞上海,距离上一次踏上这片土地,整整十二年。到了酒店把孩子们安顿好,晚上带夫人去了 The Stage 玉兰观景台,三百多米高,俯瞰整个陆家嘴和黄浦江。出舱门的那一刻,看着脚下铺开的灯光,我突然意识到,十二年前我也在这片土地上,只不过那时候,我是站在江对面,仰着头看这边的塔尖。
最近 Agent 写的代码,review 时要改的东西越来越多。硬编码、魔法数字、抛异常时不给用户友好提示、catch 了又吞掉、内存悄悄上涨、循环里塞着循环——以前偶尔出现,现在几乎每个 PR 都能看到。
Agent 写代码快,但快得没有 engineering excellence。
设计自主进化系统时,会遇到一个看似简单的选择。
每一轮挑出 best sample,但 best 还没 pass 的时候,下一轮怎么办?
方案 A:把 best 作为下一轮的 base,所有 sample 基于 best 继续进化。
方案 B:每个 sample 保持独立 lineage,best 不影响任何人。
SSD(Simple Self-Distillation)是 Apple 提出的一种自蒸馏方法——从 frozen 模型里多 sample,在自己的原始输出上做 SFT,让模型自我改进。本文讨论的是 SSD 的一个变种场景:inference-time 的 multi-sample selection——多 sample 之后怎么选那个“最优”。