新型15亿参数路由模型实现93%准确率,无需昂贵重训练

1周前 2观看

Katanemo Labs的研究人员推出了Arch-Router,这是一种全新的路由模型和框架,旨在智能地将用户查询映射到最合适的大语言模型。pMQ喜好网-记录每日喜好的科技时尚娱乐生活

对于构建依赖多个大语言模型产品的企业来说,Arch-Router旨在解决一个关键挑战:如何在不依赖刚性逻辑或每次变化时进行昂贵重训练的情况下,将查询导向最适合的模型。pMQ喜好网-记录每日喜好的科技时尚娱乐生活

**大语言模型路由的挑战**pMQ喜好网-记录每日喜好的科技时尚娱乐生活

随着大语言模型数量的增长,开发者正从单模型设置转向多模型系统,利用每个模型在特定任务上的独特优势(如代码生成、文本摘要或图像编辑)。pMQ喜好网-记录每日喜好的科技时尚娱乐生活

大语言模型路由已成为构建和部署这些系统的关键技术,充当交通控制器的角色,将每个用户查询导向最合适的模型。pMQ喜好网-记录每日喜好的科技时尚娱乐生活

现有的路由方法通常分为两类:"基于任务的路由",根据预定义任务路由查询;"基于性能的路由",寻求成本和性能之间的最佳平衡。pMQ喜好网-记录每日喜好的科技时尚娱乐生活

然而,基于任务的路由在处理不明确或变化的用户意图时遇到困难,特别是在多轮对话中。另一方面,基于性能的路由刚性地优先考虑基准分数,往往忽略现实世界的用户偏好,并且在适应新模型时表现不佳,除非进行昂贵的微调。pMQ喜好网-记录每日喜好的科技时尚娱乐生活

更根本的是,正如Katanemo Labs研究人员在论文中指出的:"现有路由方法在现实世界使用中存在局限性。它们通常优化基准性能,同时忽略由主观评估标准驱动的人类偏好。"pMQ喜好网-记录每日喜好的科技时尚娱乐生活

研究人员强调需要"与主观人类偏好保持一致、提供更多透明度,并在模型和用例演变时保持易于适应"的路由系统。pMQ喜好网-记录每日喜好的科技时尚娱乐生活

**偏好对齐路由的新框架**pMQ喜好网-记录每日喜好的科技时尚娱乐生活

为了解决这些局限性,研究人员提出了一个"偏好对齐路由"框架,该框架基于用户定义的偏好将查询与路由策略匹配。pMQ喜好网-记录每日喜好的科技时尚娱乐生活

在这个框架中,用户使用"领域-动作分类法"以自然语言定义他们的路由策略。这是一个两级层次结构,反映了人们自然描述任务的方式,从一般主题(领域,如"法律"或"金融")开始,然后缩小到特定任务(动作,如"摘要"或"代码生成")。pMQ喜好网-记录每日喜好的科技时尚娱乐生活

每个策略都与首选模型相关联,允许开发者基于现实世界需求而不仅仅是基准分数做出路由决策。正如论文所述:"这种分类法作为一个心理模型,帮助用户定义清晰和结构化的路由策略。"pMQ喜好网-记录每日喜好的科技时尚娱乐生活

路由过程分两个阶段进行。首先,偏好对齐路由模型接收用户查询和完整的策略集,选择最合适的策略。其次,映射函数将选定的策略连接到其指定的大语言模型。pMQ喜好网-记录每日喜好的科技时尚娱乐生活

由于模型选择逻辑与策略分离,可以通过简单编辑路由策略来添加、删除或交换模型,无需重新训练或修改路由器本身。这种解耦提供了实际部署所需的灵活性,其中模型和用例不断演变。pMQ喜好网-记录每日喜好的科技时尚娱乐生活

策略选择由Arch-Router驱动,这是一个为偏好对齐路由而微调的紧凑型15亿参数语言模型。Arch-Router接收用户查询和完整的策略描述集合作为其提示。然后生成最佳匹配策略的标识符。pMQ喜好网-记录每日喜好的科技时尚娱乐生活

由于策略是输入的一部分,系统可以在推理时通过上下文学习适应新的或修改的路由,无需重新训练。这种生成方法允许Arch-Router使用其预训练知识来理解查询和策略的语义,并一次性处理整个对话历史。pMQ喜好网-记录每日喜好的科技时尚娱乐生活

在提示中包含大量策略的一个常见担忧是可能增加延迟。然而,研究人员设计Arch-Router高度高效。"虽然路由策略的长度可能很长,但我们可以轻松增加Arch-Router的上下文窗口,对延迟的影响最小,"论文共同作者、Katanemo Labs创始人兼CEO Salman Paracha解释说。他指出,延迟主要由输出长度驱动,对于Arch-Router,输出只是路由策略的短名称,如"image_editing"或"document_creation"。pMQ喜好网-记录每日喜好的科技时尚娱乐生活

**Arch-Router的实际应用**pMQ喜好网-记录每日喜好的科技时尚娱乐生活

为了构建Arch-Router,研究人员在一个包含43,000个示例的精选数据集上微调了Qwen 2.5模型的15亿参数版本。然后在四个用于评估对话AI系统的公共数据集上测试了其相对于OpenAI、Anthropic和Google的最先进专有模型的性能。pMQ喜好网-记录每日喜好的科技时尚娱乐生活

结果显示,Arch-Router实现了93.17%的最高总体路由分数,超过所有其他模型,包括顶级专有模型,平均优势为7.71%。该模型在更长对话中的优势更加明显,展示了其在多轮对话中跟踪上下文的强大能力。pMQ喜好网-记录每日喜好的科技时尚娱乐生活

据Paracha介绍,这种方法已经在多个场景中得到应用。例如,在开源编码工具中,开发者使用Arch-Router将工作流程的不同阶段(如"代码设计"、"代码理解"和"代码生成")导向最适合每个任务的大语言模型。类似地,企业可以将文档创建请求路由到Claude 3.7 Sonnet等模型,同时将图像编辑任务发送到Gemini 2.5 Pro。pMQ喜好网-记录每日喜好的科技时尚娱乐生活

该系统也非常适合"各个领域的个人助理,用户有从文本摘要到事实查询的多样化任务,"Paracha说,并补充说"在这些情况下,Arch-Router可以帮助开发者统一和改善整体用户体验。"pMQ喜好网-记录每日喜好的科技时尚娱乐生活

这个框架与Arch集成,Arch是Katanemo Labs面向智能体的AI原生代理服务器,允许开发者实现复杂的流量整形规则。例如,在集成新的大语言模型时,团队可以向新模型发送特定路由策略的一小部分流量,通过内部指标验证其性能,然后自信地完全转移流量。该公司也在努力将其工具与评估平台集成,以进一步简化企业开发者的流程。pMQ喜好网-记录每日喜好的科技时尚娱乐生活

最终目标是超越孤立的AI实现。"Arch-Router——以及更广泛的Arch——帮助开发者和企业从分散的大语言模型实现转向统一的、策略驱动的系统,"Paracha说。"在用户任务多样化的场景中,我们的框架帮助将任务和大语言模型的分散转变为统一体验,使最终产品对终端用户感觉无缝。"pMQ喜好网-记录每日喜好的科技时尚娱乐生活

本文链接:http://www.xihao.site/showinfo-1-79531.html新型15亿参数路由模型实现93%准确率,无需昂贵重训练

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com。天上从来不会掉馅饼,请大家时刻谨防诈骗