持续学习agi

  • 实验操作:
    1. 停止收集海量的互联网“死”数据(如Common Crawl)。
    2. 停止 LLM式的“预训练-微调”两阶段模式。
    3. 改为: 打造一个“新生”的代理(Agent),从零知识开始,直接将其**“部署”**到一个丰富的、动态的、有“后果”的环境中(例如,一个模拟的物理世界,或者真实的互联网)。

2. 构筑”四分位代理”架构

这个代理不是LLM。它必须是你摘要中提到的“四分位架构”,因为这四个部分是“持续学习”的必要前提:

  1. 感知 (Perception): 代理必须能“感觉”到环境的状态。
  2. 世界模型 (World Model): 代理必须预测其行为的“后果”。这是LLM没有的(如你摘要所说:“LLM无法预测现实世界的后果”)。
  3. 价值函数 (Value Function): 代理必须能评估“长期结果”。如你摘要所说,它使用TD学习来强化“稀疏的回报”(比如一个10年目标)。
  4. 策略 (Policy): 代理根据以上三点,决定“我现在该做什么”。

3. 设定“奖励”作为唯一的“地面真理”

LLM的“实验”失败了,因为(如你摘要所说)它“缺乏基本真理与目标”。Sutton的实验必须解决这个问题。

  • Sutton的指令: “将目标与奖励视为情报的本质”。
  • 实验操作:
    1. 为代理设定一个明确的、外部的奖励信号(例如:在模拟世界中“存活”或“积累资源”,或者在互联网上“完成用户请求并获得正面反馈”)。
    2. 这个“奖励信号”是整个实验中唯一的“正确答案”(Ground Truth)。
    3. 代理的唯一工作,就是通过“反复试验”(Policy)来调整其“世界模型”和“价值函数”,以最大化这个长期奖励。

4. 规模化“经验”,而非“数据”

Sutton的“苦涩的教训”告诉我们计算(堆卡)是必要的,但堆卡的方式错了。

  • LLM的堆法: 堆卡来处理更多的“静态数据”。
  • Sutton的堆法: 堆卡来处理更多的“实时经验”。
  • 实验操作 (来自你的摘要):
    1. 去中心化的产卵 (“呱呱坠地探索”): 启动“许多实例”(副本)的代理。
    2. 并行探索: 让这些代理在环境的不同角落同时进行“试错”和“学习”。
    3. 知识共享 (“在实例中分享知识”): 建立一个机制,让这些代理高效地共享它们“学到的权重”。如你摘要所说,这比“再训练”节省“巨大”。

5. 验证结果:AGI是否涌现

这个实验如果成功,它将产生一个与LLM截然不同的智能体。

  • LLM (失败的对照组):
    • 你问它新知识,它不知道(知识冻结)。
    • 你给它一个现实任务,它无法预测后果。
    • 你纠正它,它下次还犯(没有更新)。
  • Sutton的代理 (成功的实验组):
    • 持续学习: 它在与你互动的过程中实时更新其权重(解决了“大世界假说”)。
    • 理解后果: 它的“世界模型”能对现实后果进行预测,并因“意外”而调整。
    • 真正泛化: 它能“跨状态”(State)泛化,而不是像MuZero那样被困在孤立的“游戏”里。

总结:

“完成这个实验”的路径,就是停止模仿(LLM),开始体验(RL)

这意味着要建造一个以“奖励”为唯一真理架构为“四位一体”学习方式为“在线终身”、并且**规模化方式为“经验共享”**的全新智能体。

这就是Sutton(和你)押注的、通往AGI的另一条路。

发布者:archimedesspx

cycle expert

留下评论

您的邮箱地址不会被公开。 必填项已用 * 标注