Patronus AI 首发 Percival,助力企业大规模监控失效的 AI 代理系统

2周前 3观看

Patronus AI 今日推出了一款全新的监控平台,该平台能够自动识别 AI 代理系统中的故障,旨在应对企业在这些应用变得越来越复杂时对可靠性的担忧。mRp喜好网-记录每日喜好的科技时尚娱乐生活

这家位于旧金山的 AI 安全初创公司推出的新产品 Percival,自称是首个能够自动识别 AI 代理系统中各种故障模式并提出相应优化方案的解决方案。mRp喜好网-记录每日喜好的科技时尚娱乐生活

“Percival 是业内首个能够自动检测代理系统中多种故障模式,并系统性地提出修复和优化建议的解决方案,” Patronus AI 的首席执行官兼联合创始人 Anand Kannappan 在接受 VentureBeat 独家采访时表示。mRp喜好网-记录每日喜好的科技时尚娱乐生活

AI 代理可靠性危机:为何企业正在失去对自主系统的控制mRp喜好网-记录每日喜好的科技时尚娱乐生活

企业对 AI 代理(能够独立规划和执行复杂多步骤任务的软件)的采用在最近几个月内急速增加,这为企业在确保这些系统大规模可靠运作时带来了新的管理挑战。mRp喜好网-记录每日喜好的科技时尚娱乐生活

不同于传统的机器学习模型,这些基于代理的系统往往涉及冗长的操作序列,早期环节中的错误可能会对后续流程产生重大影响。mRp喜好网-记录每日喜好的科技时尚娱乐生活

“就在几周前,我们发布了一个模型,用来量化代理发生故障的可能性以及可能对品牌、客户流失等造成的影响,” Kannappan 表示。“我们观察到代理不断累积的错误概率问题。”mRp喜好网-记录每日喜好的科技时尚娱乐生活

这一问题在多代理环境中尤为严重,不同 AI 系统之间的相互交互使得传统的测试方法越来越难以应对。mRp喜好网-记录每日喜好的科技时尚娱乐生活

情景记忆创新:Percival 的 AI 代理架构如何革新错误检测mRp喜好网-记录每日喜好的科技时尚娱乐生活

Percival 通过其基于代理的架构以及公司所称的“情景记忆”能力——即从以往错误中学习并适应特定工作流程——与其他评估工具区分开来。mRp喜好网-记录每日喜好的科技时尚娱乐生活

该软件能够在四大类别中检测超过 20 种不同的故障模式,分别为推理错误、系统执行错误、规划与协调错误以及特定领域错误。mRp喜好网-记录每日喜好的科技时尚娱乐生活

“不同于将 LLM 作为评判者,Percival 本身就是一个代理,因此它可以跟踪整个过程中发生的所有事件,” Patronus AI 的研究员 Darshan Deshpande 解释道。“它能够对这些事件进行关联,并在不同情境下发现这些错误。”mRp喜好网-记录每日喜好的科技时尚娱乐生活

对于企业来说,最直接的好处在于大大减少调试时间。根据 Patronus 的数据,早期客户已经将分析代理工作流程所需的时间从大约一小时缩短到 1 至 1.5 分钟之间。mRp喜好网-记录每日喜好的科技时尚娱乐生活

TRAIL 基准测试揭示了 AI 监督能力的关键缺口mRp喜好网-记录每日喜好的科技时尚娱乐生活

在产品发布的同时,Patronus 还发布了一项名为 TRAIL(Trace Reasoning and Agentic Issue Localization)的基准测试,用于评估系统在检测 AI 代理工作流程问题方面的表现如何。mRp喜好网-记录每日喜好的科技时尚娱乐生活

使用该基准测试的研究表明,即便是最先进的 AI 模型在进行有效的轨迹分析时也存在困难,表现最好的系统在该基准测试中的得分仅为 11%。mRp喜好网-记录每日喜好的科技时尚娱乐生活

研究结果突显了监控复杂 AI 系统的挑战性,并解释了为何大型企业正在为 AI 监督投资专门的工具。mRp喜好网-记录每日喜好的科技时尚娱乐生活

企业 AI 领导者采用 Percival 应对关键任务代理应用mRp喜好网-记录每日喜好的科技时尚娱乐生活

早期采用者之一包括 Emergence AI,该公司已筹集约 1 亿美元资金,并正在开发让 AI 代理能够创建和管理其他代理的系统。mRp喜好网-记录每日喜好的科技时尚娱乐生活

“Emergence 最近的重大突破——代理创造代理,不仅标志着自适应、自我生成系统演进的一个关键时刻,也预示着此类系统在如何被合理监管和扩展上将迎来新的局面,” Emergence AI 的联合创始人兼首席执行官 Satya Nitta 在发给 VentureBeat 的声明中表示。mRp喜好网-记录每日喜好的科技时尚娱乐生活

另一位早期客户 Nova 正采用该技术开发一套平台,帮助大型企业通过 AI 驱动的 SAP 集成迁移遗留代码。mRp喜好网-记录每日喜好的科技时尚娱乐生活

这些客户正是 Percival 所旨在解决的难题的典型案例。Kannappan 表示,目前一些公司已经开始管理“单个代理目录中包含超过 100 个步骤”的代理系统,其复杂性大大超出了人类操作员能够高效监控的范围。mRp喜好网-记录每日喜好的科技时尚娱乐生活

随着自主系统的日益普及,企业对 AI 监督的市场正迎来爆炸式增长mRp喜好网-记录每日喜好的科技时尚娱乐生活

此次发布正值企业对 AI 可靠性和治理的担忧日益加剧之际。随着企业部署越来越多的自主系统,对监督工具的需求也在成比例增加。mRp喜好网-记录每日喜好的科技时尚娱乐生活

“挑战在于系统正变得越来越自主,” Kannappan 指出,并补充道“每天有数十亿行代码在由 AI 自动生成”,这样的环境让人工监管几乎不可能实现。mRp喜好网-记录每日喜好的科技时尚娱乐生活

随着企业从实验性部署向关键任务 AI 应用转型,针对 AI 监控和可靠性工具的市场预计将大幅扩张。mRp喜好网-记录每日喜好的科技时尚娱乐生活

Percival 可与多个 AI 框架集成,包括 Hugging Face Smolagents、Pydantic AI、OpenAI Agent SDK 和 Langchain,使其能够兼容多种开发环境。mRp喜好网-记录每日喜好的科技时尚娱乐生活

尽管 Patronus AI 并未披露定价或收入预测,该公司对企业级监督工具的专注表明,其正定位于高利润企业 AI 安全市场,而分析师预测该市场将随着 AI 采用加速而大幅增长。mRp喜好网-记录每日喜好的科技时尚娱乐生活

本文链接:http://www.xihao.site/showinfo-1-75826.htmlPatronus AI 首发 Percival,助力企业大规模监控失效的 AI 代理系统

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com。天上从来不会掉馅饼,请大家时刻谨防诈骗