持续学习agi

archimedesspx 2025年10月30日留下评论

实验操作：
1. 停止收集海量的互联网“死”数据（如Common Crawl）。
2. 停止 LLM式的“预训练-微调”两阶段模式。
3. 改为： 打造一个“新生”的代理（Agent），从零知识开始，直接将其**“部署”**到一个丰富的、动态的、有“后果”的环境中（例如，一个模拟的物理世界，或者真实的互联网）。

2. 构筑”四分位代理”架构

这个代理不是LLM。它必须是你摘要中提到的“四分位架构”，因为这四个部分是“持续学习”的必要前提：

感知 (Perception)： 代理必须能“感觉”到环境的状态。
世界模型 (World Model)： 代理必须预测其行为的“后果”。这是LLM没有的（如你摘要所说：“LLM无法预测现实世界的后果”）。
价值函数 (Value Function)： 代理必须能评估“长期结果”。如你摘要所说，它使用TD学习来强化“稀疏的回报”（比如一个10年目标）。
策略 (Policy)： 代理根据以上三点，决定“我现在该做什么”。

3. 设定“奖励”作为唯一的“地面真理”

LLM的“实验”失败了，因为（如你摘要所说）它“缺乏基本真理与目标”。Sutton的实验必须解决这个问题。

Sutton的指令： “将目标与奖励视为情报的本质”。
实验操作：
1. 为代理设定一个明确的、外部的奖励信号（例如：在模拟世界中“存活”或“积累资源”，或者在互联网上“完成用户请求并获得正面反馈”）。
2. 这个“奖励信号”是整个实验中唯一的“正确答案”（Ground Truth）。
3. 代理的唯一工作，就是通过“反复试验”（Policy）来调整其“世界模型”和“价值函数”，以最大化这个长期奖励。

4. 规模化“经验”，而非“数据”

Sutton的“苦涩的教训”告诉我们计算（堆卡）是必要的，但堆卡的方式错了。

LLM的堆法： 堆卡来处理更多的“静态数据”。
Sutton的堆法： 堆卡来处理更多的“实时经验”。
实验操作 (来自你的摘要)：
1. 去中心化的产卵 (“呱呱坠地探索”)： 启动“许多实例”（副本）的代理。
2. 并行探索： 让这些代理在环境的不同角落同时进行“试错”和“学习”。
3. 知识共享 (“在实例中分享知识”)： 建立一个机制，让这些代理高效地共享它们“学到的权重”。如你摘要所说，这比“再训练”节省“巨大”。

5. 验证结果：AGI是否涌现

这个实验如果成功，它将产生一个与LLM截然不同的智能体。

LLM (失败的对照组)：
- 你问它新知识，它不知道（知识冻结）。
- 你给它一个现实任务，它无法预测后果。
- 你纠正它，它下次还犯（没有更新）。
Sutton的代理 (成功的实验组)：
- 持续学习： 它在与你互动的过程中实时更新其权重（解决了“大世界假说”）。
- 理解后果： 它的“世界模型”能对现实后果进行预测，并因“意外”而调整。
- 真正泛化： 它能“跨状态”（State）泛化，而不是像MuZero那样被困在孤立的“游戏”里。

总结：

“完成这个实验”的路径，就是停止模仿（LLM），开始体验（RL）。

这意味着要建造一个以“奖励”为唯一真理、架构为“四位一体”、学习方式为“在线终身”、并且**规模化方式为“经验共享”**的全新智能体。

这就是Sutton（和你）押注的、通往AGI的另一条路。

发布者：archimedesspx

cycle expert 查看更多文章

留下评论

取消回复