Sakana AI 推出 TreeQuest:多模型团队表现超越单一大语言模型30%

5天前 2观看

日本人工智能实验室 Sakana AI 推出了一项新技术,允许多个大语言模型在单一任务上协作,有效地创建了一个人工智能智能体的"梦之队"。这种名为 Multi-LLM AB-MCTS 的方法使模型能够进行试错并结合各自独特的优势,解决对任何单个模型来说都过于复杂的问题。WQS喜好网-记录每日喜好的科技时尚娱乐生活

对于企业而言,这种方法提供了开发更强大、更可靠的人工智能系统的途径。企业不必局限于单一供应商或模型,可以动态利用不同前沿模型的最佳特性,为任务的不同部分分配合适的人工智能,从而获得卓越的结果。WQS喜好网-记录每日喜好的科技时尚娱乐生活

**集体智慧的力量**WQS喜好网-记录每日喜好的科技时尚娱乐生活

前沿人工智能模型正在快速发展。然而,每个模型都有其源于独特训练数据和架构的不同优势和劣势。一个模型可能在编程方面表现出色,而另一个可能在创意写作方面更胜一筹。Sakana AI 的研究人员认为,这些差异不是缺陷,而是特色。WQS喜好网-记录每日喜好的科技时尚娱乐生活

"我们认为这些偏见和不同的能力不是限制,而是创造集体智慧的宝贵资源,"研究人员在博客文章中表示。他们相信,正如人类最伟大的成就来自多元化团队一样,人工智能系统也可以通过协作取得更大成就。"通过汇集智慧,人工智能系统可以解决任何单一模型都无法克服的问题。"WQS喜好网-记录每日喜好的科技时尚娱乐生活

**在推理时间进行更深入的思考**WQS喜好网-记录每日喜好的科技时尚娱乐生活

Sakana AI 的新算法是一种"推理时扩展"技术(也称为"测试时扩展"),这是过去一年中非常热门的研究领域。虽然人工智能领域的大部分关注点都集中在"训练时扩展"(使模型更大并在更大的数据集上训练),但推理时扩展通过在模型已经训练完成后分配更多计算资源来提高性能。WQS喜好网-记录每日喜好的科技时尚娱乐生活

一种常见方法是使用强化学习来提示模型生成更长、更详细的思维链序列,如在 OpenAI o3 和 DeepSeek-R1 等流行模型中所见。另一种更简单的方法是重复采样,即对模型多次给出相同提示以生成各种潜在解决方案,类似于头脑风暴会议。Sakana AI 的工作结合并推进了这些想法。WQS喜好网-记录每日喜好的科技时尚娱乐生活

"我们的框架提供了更智能、更具策略性的 Best-of-N(即重复采样)版本,"Sakana AI 研究科学家、论文共同作者 Takuya Akiba 告诉 VentureBeat。"它通过强化学习补充了长思维链等推理技术。通过动态选择搜索策略和合适的大语言模型,这种方法在有限的大语言模型调用次数内最大化性能,在复杂任务上提供更好的结果。"WQS喜好网-记录每日喜好的科技时尚娱乐生活

**自适应分支搜索的工作原理**WQS喜好网-记录每日喜好的科技时尚娱乐生活

新方法的核心是一个名为自适应分支蒙特卡洛树搜索(AB-MCTS)的算法。它使大语言模型能够通过智能地平衡两种不同的搜索策略来有效地进行试错:"深度搜索"和"广度搜索"。深度搜索涉及采用一个有前景的答案并反复改进它,而广度搜索意味着从头开始生成全新的解决方案。AB-MCTS 结合了这些方法,允许系统改进一个好想法,但如果遇到死胡同或发现另一个有前景的方向,也可以转向尝试新的东西。WQS喜好网-记录每日喜好的科技时尚娱乐生活

为了实现这一点,系统使用蒙特卡洛树搜索(MCTS),这是一种决策算法,因被 DeepMind 的 AlphaGo 使用而闻名。在每一步,AB-MCTS 使用概率模型来决定改进现有解决方案还是生成新解决方案在策略上更有利。WQS喜好网-记录每日喜好的科技时尚娱乐生活

研究人员通过 Multi-LLM AB-MCTS 进一步推进了这项技术,它不仅决定"做什么"(改进vs生成),还决定"哪个"大语言模型应该来做。在任务开始时,系统不知道哪个模型最适合这个问题。它首先尝试可用大语言模型的平衡组合,随着进展,学习哪些模型更有效,随着时间的推移将更多工作负载分配给它们。WQS喜好网-记录每日喜好的科技时尚娱乐生活

**测试人工智能"梦之队"**WQS喜好网-记录每日喜好的科技时尚娱乐生活

研究人员在 ARC-AGI-2 基准测试上测试了他们的 Multi-LLM AB-MCTS 系统。ARC(抽象和推理语料库)旨在测试解决新颖视觉推理问题的类人能力,使其对人工智能来说极其困难。WQS喜好网-记录每日喜好的科技时尚娱乐生活

该团队使用了包括 o4-mini、Gemini 2.5 Pro 和 DeepSeek-R1 在内的前沿模型组合。WQS喜好网-记录每日喜好的科技时尚娱乐生活

模型集合能够为 120 个测试问题中超过 30% 的问题找到正确解决方案,这一分数显著超过了任何单独工作的模型。系统展示了为给定问题动态分配最佳模型的能力。在存在明确解决方案路径的任务上,算法快速识别出最有效的大语言模型并更频繁地使用它。WQS喜好网-记录每日喜好的科技时尚娱乐生活

更令人印象深刻的是,团队观察到模型解决了此前任何单一模型都无法解决的问题。在一个案例中,o4-mini 模型生成的解决方案是错误的。然而,系统将这个有缺陷的尝试传递给 DeepSeek-R1 和 Gemini-2.5 Pro,它们能够分析错误、纠正错误,并最终产生正确答案。WQS喜好网-记录每日喜好的科技时尚娱乐生活

"这表明 Multi-LLM AB-MCTS 可以灵活地结合前沿模型来解决以前无法解决的问题,推动了使用大语言模型作为集体智慧可实现目标的极限,"研究人员写道。WQS喜好网-记录每日喜好的科技时尚娱乐生活

"除了每个模型的个别优缺点外,产生幻觉的倾向在它们之间可能存在显著差异,"Akiba 说。"通过与不太可能产生幻觉的模型创建集成,可能实现两全其美:强大的逻辑能力和强大的基础性。由于幻觉是商业环境中的主要问题,这种方法对其缓解可能很有价值。"WQS喜好网-记录每日喜好的科技时尚娱乐生活

**从研究到现实世界应用**WQS喜好网-记录每日喜好的科技时尚娱乐生活

为了帮助开发者和企业应用这项技术,Sakana AI 已将底层算法作为名为 TreeQuest 的开源框架发布,采用 Apache 2.0 许可证(可用于商业目的)。TreeQuest 提供灵活的 API,允许用户为自己的任务实施 Multi-LLM AB-MCTS,并具有自定义评分和逻辑。WQS喜好网-记录每日喜好的科技时尚娱乐生活

"虽然我们在将 AB-MCTS 应用于特定面向业务的问题方面还处于早期阶段,但我们的研究显示了在几个领域的巨大潜力,"Akiba 说。WQS喜好网-记录每日喜好的科技时尚娱乐生活

除了 ARC-AGI-2 基准测试外,该团队还能够成功地将 AB-MCTS 应用于复杂算法编程和提高机器学习模型准确性等任务。WQS喜好网-记录每日喜好的科技时尚娱乐生活

"AB-MCTS 对于需要迭代试错的问题也可能非常有效,比如优化现有软件的性能指标,"Akiba 说。"例如,它可以用于自动找到改善网络服务响应延迟的方法。"WQS喜好网-记录每日喜好的科技时尚娱乐生活

实用开源工具的发布可能为新一类更强大、更可靠的企业人工智能应用铺平道路。WQS喜好网-记录每日喜好的科技时尚娱乐生活

本文链接:http://www.xihao.site/showinfo-1-79196.htmlSakana AI 推出 TreeQuest:多模型团队表现超越单一大语言模型30%

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com。天上从来不会掉馅饼,请大家时刻谨防诈骗