Dwarkesh Patel,一位在硅谷备受瞩目的年轻播客主持人和作者,最近引发了关于人工智能下一代训练模式的探讨。年仅 25 岁的他,凭借其 Dwarkesh Podcast 节目,已经成为 AI 领域核心圈的焦点人物,采访过 Ilya Sutskever、Andrej Karpathy、Dario Amodei、Demis Hassabis 以及 Mark Zuckerberg 等行业领袖。他的影响力得到了《TIME》杂志的认可,该杂志将他列入 2024 年 TIME100 AI 名单,并指出其播客已成为众多 AI 从业者的重要信息来源。
在近期的一期播客中,Patel 总结了当前前沿 AI 实验室正在探索的一条关键路径,即“RLVR”,也就是“可验证奖励强化学习”。这种方法的核心在于让模型在大量能够自动判断对错的任务中进行反复试验,从而培养其规划、纠错、迭代和长期执行的能力。目前代码、数学等领域取得的显著进展,很大程度上便得益于这一思路。
然而,Patel 进一步追问:仅仅依靠这种“可验证任务训练”,是否足以支撑下一代 AI 的发展?他认为答案可能是否定的,因为一个任务除了“可验证”之外,还需要具备“可刷性”。他提出了“grindability”(可磨性)的概念,将其解释为“可反复刷题性”或“可大规模部署的能力”。
代码任务便是典型的“可刷”范例。可以构建一个软件仓库,设定待修复的 bug 和测试用例,然后复制数千个相同的训练环境,让数千个代理(agent)同时尝试。通过测试的代理将获得分数。这个过程具备并行性、可复现性和可重置性,非常契合 RLVR。数学题也类似,答案的正确性易于验证,训练环境也容易复制。
Patel 提出了一个引人深思的问题:为何 AI 在“使用电脑”这一任务上的进展,反而比代码和数学领域缓慢?表面上看,电脑操作的结果是可验证的,例如订单是否成功下单、活动场地是否预订成功、税表是否提交等。但关键问题在于,这类任务难以被大规模复制和回放。我们不能让成千上万的代理同时在亚马逊上反复进行结账流程,因为真实网站会识别并封禁自动化工具,并且网站状态会不断变化。虽然可以创建像 Slack、Gmail、Amazon 等应用的模拟器,但在当前阶段,这项工程成本高昂且扩展性有限。
Patel 指出,AI 在特定领域进步迅速,不仅是因为该领域答案可验证,更重要的是该领域能够被封装成可复制、可回放、可并行试错的训练环境。这解释了为何代码、数学和游戏领域成为 RLVR 的理想选择,而许多现实世界的任务却难以直接纳入此训练模式。
他将讨论引向了更为复杂的现实世界场景。例如,如何训练一个 AI 从零开始创业?如何训练它赢得一场官司?或者如何训练它在市场中稳定盈利,又或者帮助一位候选人赢得选举?这些任务的结果最终都可以判断:公司是否成功、官司是否打赢、交易是否盈利、选举是否获胜。但它们面临的挑战在于:反馈周期过长,变量过多,环境不可重置,且无法在数据中心里进行成千上万次的复制。一次创业可能耗时数年,一场政治竞选受制于特定地区、候选人、选民情绪、媒体环境和偶然事件。一场法律案件也无法从相同的起点复制成一千个平行宇宙供不同代理进行试错。在强化学习的语境下,这类环境接近于“reset-free”和“non-stationary”,即不能随意重置且环境本身在不断变化。
因此,Patel 提出了疑问:在可验证、可刷的环境中训练出的代理,是否真的能够泛化到这些真实世界的任务中?他强调这并非一个可以通过口号回答的问题,而是一个需要实证来解答的问题。
乐观的观点认为,只要 RLVR 环境足够丰富和复杂,模型最终会学会通用的代理能力,并在代码、数学、网页使用和工具操作中获得的规划与试错能力,最终迁移到创业、组织管理、政治、法律和科学研究等领域。然而,Patel 对此持谨慎态度。他认为,现实世界中最有价值的知识,往往并非以清晰、可验证、可重复的方式呈现。它们可能源于一次模糊的客户反馈、一次失败的会议、组织内部的隐性流程,或是在真实任务中才会暴露的某种失败模式。模型要掌握这些,不能仅仅依赖“刷题”,而必须具备真正的样本效率。
这引出了一个核心观点:“learning back to the weights”(将学习回写到权重)。当前的大模型在“上下文学习”(in-context learning)方面表现出色,它们能在长上下文中阅读大量资料,理解项目背景,并临时适应用户或组织的需求。但问题在于,这种学习大多停留在上下文窗口内,会话结束后模型可能并未真正“长记性”。Patel 认为这是一种巨大的资源浪费,因为模型真正有价值的训练信号往往在部署后才出现。模型被真实用户使用,进入真实组织,参与真实任务,暴露真实错误,从而观察公司内部运作、用户实际使用方式、常见失败点以及现实中不可行的建议。
如果这些经验无法沉淀回模型权重,那么就仅仅是单次会话的短暂适应,而非能力的长期增长。他以人类学习为例:人并非通过逐字背诵每天发生的所有事情来变强。一个员工工作半年后变得更胜任,不是因为他记住了每一封邮件或每一次会议记录,而是因为他将这些经历内化为判断力、直觉、流程理解和模式识别能力。模型也应如此。真正的持续学习(continual learning)并非无限扩展 KV 缓存或将所有历史记录塞入上下文,而是从真实经验中提炼出少量真正有用的知识,并将其压缩进权重。这正是 Patel 认为下一代训练范式必须解决的关键问题。
那么,具体应如何实现?他提到了一个正在被讨论的方向:“on-policy self-distillation”(OPSD,基于策略的自蒸馏)。简单来说,就是让一个在长会话中积累了大量经验的模型充当“老员工”或教师,然后训练基础模型,使其在没有完整上下文的情况下也能做出类似教师的判断。这意味着将模型在真实任务中通过上下文学习到的东西,再蒸馏回模型自身的权重。这与传统的 SFT 不同,朴素的 SFT 可能只是让模型预测会话中出现过的 token,相当于复述工作日志,但这并非有效学习。关键在于提炼出能帮助模型下次做得更好的关键洞见。OPSD 的优势在于,它不一定需要外部可验证的奖励。只要模型能在上下文中学习到有用信息,就可以将“学习后的模型”作为教师,引导基础模型进行学习。同时,相比于普通 RL 仅提供最终奖励,OPSD 能提供更密集的监督信号,可以在 token 层面比较教师和学生的概率分布差异,从而将一次真实任务中的稀缺经验压缩成更小、更精确的权重更新。
除了 OPSD,Patel 还提出了“dreaming”(梦想)这一概念。这里的“dreaming”指的是 AI 根据真实世界的观察,自行构建一个模拟环境,并在其中反复练习、尝试策略、强化有效行为。这听起来与强化学习中的“基于模型”的 RL(model-based RL)以及 Sutton 一直强调的智能体通过环境互动积累经验的理念相似。不同之处在于,Patel 将其置于大模型和真实部署的语境中。例如,一个 AI 在真实公司观察到某个业务流程后,除了撰写总结,还会投入大量计算资源构建该流程的“游戏版模拟环境”。然后,它在其中测试不同的沟通策略、执行路径和项目推进方式,以评估成功可能性。最后,将这些模拟练习的经验压缩回模型。
如果这条路径得以实现,它可能会成为新的“scaling axis”(扩展轴)。过去 AI 的扩展主要依赖于三个维度:预训练(pretraining)、强化学习(RL)和推理计算(inference-time compute)。Patel 设想,未来可能还会增加第四个维度:测试时训练(test-time training),或称“dreaming”。模型不仅进行推理,更是在推理和任务执行过程中,为特定用户、特定组织、特定项目构建模拟环境,并在其中进行自我训练。这也呼应了评论区中提及的 David Silver 和 Richard Sutton 的文章《Welcome to the Era of Experience》,该文同样强调 AI 不能永远依赖人类数据,下一阶段的关键将是智能体从自身与环境的互动中获得经验。
Patel 将这一宏观判断具体化到当前大模型训练问题上:RLVR 是一个重要的过渡阶段,它使模型在可验证任务中培养出代理能力;但要进入更复杂的现实世界,模型必须学会从真实部署中持续学习,并将经验写回权重。
在 Patel 设想的 2027 年或 2028 年,训练流程可能会是这样:首先,通过 RLVR 训练出一个基本胜任的代理。这个代理被置于一个陌生的情境中,至少能够理解情况,尝试不同策略,并在遇到障碍时进行迭代。接着,该代理被部署到真实世界中,开始执行真实工作。它可能与用户连续工作一周,参与一个不在原始训练分布内的项目。一周结束后,用户会给出“赞”或“踩”的评价,甚至提供工作反馈。如果结果是积极的,模型就会将此次任务中学到的内容蒸馏回基础模型。这个过程可能采用 OPSD、dreaming,或者某种尚未出现的新技术。
一旦这条路径跑通,AI 的能力边界将不再受限于最初的“可验证任务”。它可以先通过 RLVR 学会代码、数学、网页任务和工具调用;随后通过真实部署学习组织管理、业务流程和复杂协作;并在此基础上,进一步扩展到相邻领域。这也意味着,AI 进步的主要来源可能会发生转变。过去,模型在发布前就已经训练完成,用户仅是使用它。而下一代模型可能是:发布前先训练出基础代理,发布后通过海量真实任务继续学习。每一次与用户的交互,每一次真实项目的执行,每一次失败和修正,都可能成为下一轮能力提升的素材。
因此,Patel 所谓的“下一代训练范式”,并非简单地指模型更大、数据更多、RL 更强。它真正指向的是:AI 从“发布前训练”走向“发布后学习”,从“人类数据”走向“环境经验”,从“上下文中的临时适应”走向“权重中的长期能力”。未来最重要的 AI 训练数据,可能不再仅仅是互联网上已有的文本,也不只是实验室里构建的可验证任务,而是 AI 在真实世界中完成真实任务时,自己积累出来的经验。




03 Comments
围绕世界杯赛程,世界杯买球网持续打磨更优质的服务。
19th May 2018 Reply世界杯买球网以覆盖全球热门球队最新动态,一手资讯尽在掌握。为核心,带来高效便捷的体验。
世界杯买球网深耕2026世界杯领域,用心服务每一位用户。
19th May 2018 Reply想了解更多实时比分更新,不错过任何精彩瞬间。相关内容,尽在世界杯买球网。
世界杯买球网围绕专业球队数据分析,助您深入了解赛事。不断创新,回应用户的真实需求。
19th May 2018 Reply精选海量赛事新闻与专题报道,满足您的足球热情。内容,世界杯买球网与你一同发现更多精彩。