Atul Deo的目标是让人工智能软件变得既便宜又聪明。
这位Amazon Web Services Inc.的Amazon Bedrock和生成式人工智能负责人,只有六个月时间证明这一目标的可行性,然后就要迎来该公司12月举办的年度re:Invent大会。
"AI领域发展的速度超过了我见过的任何事物,"Deo说道。"模型每隔几周就在改进——但除非经济效益合理,否则客户不会部署它们。"
技术飞跃与生产成本之间的这种紧张关系,正在重新定义云行业的下一阶段。对AWS而言,这意味着不仅要销售最准确的模型,还要提供能防止AI成本失控的基础设施。
对于企业首席信息官来说,这意味着要从华而不实的聊天机器人转向能够执行多步骤任务并证明其价值的"智能体"软件。这些力量共同推动Bedrock——这个托管第三方和亚马逊自研AI模型的两年历史服务——成为这个年收入1000亿美元业务部门内最受关注的产品之一。
模型的激增
自今年1月以来,Bedrock已添加了七个重要模型:Anthropic的Claude Sonnet 4和Opus 4、Meta的开源Llama 4、中国新兴公司DeepSeek,以及亚马逊自己的Nova系列的三个版本,包括Nova Premier。Deo称Nova Premier具有"以折扣价格提供最先进的准确性"。每次发布都在社交媒体上引起可预期的轰动。不太显眼的是让AWS客户能够通过单一应用程序接口在这些模型间切换的许可协议。
太多模型选择就像利率一样:每个人都有自己的看法,而且会在一夜之间改变。"我们的工作是为客户提供选择范围,让他们自己挑选,"Deo说。"我们看到了很多强大的模型。Sonnet 4和Opus 4真的很强大。我们推出的Nova Premier具有非常出色的性价比。"
这种选择范围现在包括Bedrock Marketplace,这是一个面向细分市场模型的"应用商店":一个供制药化学家使用,另一个专门用于呼叫中心录音转录。分析师看到了亚马逊成功的RDS数据库策略的影子,它让客户可以在同一账单上运行Oracle、PostgreSQL或公司自研的Aurora引擎。
工程化降低成本
但仅仅提供选择并不能解决最让财务主管头疼的问题:推理成本,即每次模型产生答案时运行模型的价格。在这里,Deo列举了新的解决方案:
提示缓存——存储查询中冗长的指令部分,避免重复计费。AWS称客户可节省高达90%的成本。
智能提示路由——将简单问题发送给更便宜、更快的模型,将复杂问题发送给重型模型,全部实时进行。
批处理模式——以实时调用一半的单位费率,在夜间处理数百万请求。
模型蒸馏——将大型模型的知识转移到专门针对单一工作流程的精简模型中。
这些功能综合起来,旨在打破云计算怀疑者所称的"Token跑步机",这是对AI系统消耗的文本基本单位的引用。更多Token意味着更多计算周期;更多计算周期意味着更大的账单。现在不再只是关注"首Token延迟"。现在公司想要了解获得答案或完成任务的总成本和时间。这正是Deo和Bedrock整个路线图的重点。
从聊天机器人到智能体
成本控制也是AI下一步发展的前提:执行跨越几分钟、几小时甚至几天任务的自主智能体。早期实验已经在进行中。一家抵押贷款初创公司现在使用Bedrock智能体收集文件、扫描错误并指导借款人完成承保流程,"从几周缩短到几天,"Deo说。房地产公司通过将尽职调查工作委托给类似的机器人,将房产销售时间从三个月缩短到两周。
发生了什么变化?两个要素同时出现。首先,更大的模型——Claude Opus 4、DeepSeek——学会了"大声思考",对自己的答案进行迭代,而不是返回单一的最佳猜测。其次,AWS推出了多智能体协作,这是一个Bedrock功能,将业务流程分配给由不同模型驱动的专业机器人。一个智能体可能使用Anthropic进行深度推理,另一个使用Nova Lite进行大量表单检查,第三个使用专门针对房地产法的垂直模型。
"把它想象成一个项目团队,"Deo先生说。"人力资源、财务、工程——每个智能体都有自己的角色。"
硬件护城河
如果云提供商因自身需求而窒息,这一切都无法实现。AI集群需要数万个高端芯片和相应的电力。据Deo介绍,这就是亚马逊发挥其硅片产品组合优势的地方。用于传统工作负载的基于Graviton的CPU和专为AI训练和推理定制的Trainium 2加速器。Deo说,Bedrock最新的Nova模型完全在Trainium 2硬件上训练,这是一个里程碑,减少了亚马逊对英伟达稀缺GPU的依赖。
"定制硅片是我们改变曲线的方式,"他补充道。"这就是我们能够在提升能力的同时降低价格的原因。"
竞争对手微软已经宣布了Maia AI芯片;谷歌云有TPU。然而,据分析公司Canalys称,AWS在数据中心投资方面继续花费最多的资金。
模型上下文协议:'AI的USB-C'
另一个新兴支柱在技术上具有潜在的变革性:模型上下文协议(MCP)。Deo称之为"AI的USB-C",这是一个标准,让智能体能够动态发现数据源和彼此,在调用间维护状态,并执行安全策略。AWS已经悄然为S3存储和DynamoDB数据库等流行服务发布了MCP服务器实现。
"如果你希望智能体一分钟与工资单对话,下一分钟与Salesforce对话,而无需硬编码API,MCP就是握手协议,"theCUBE Research(SiliconANGLE的姊妹市场研究公司)首席分析师Dave Vellante说。
受监管行业的防护栏
随着智能体逐渐接触医疗记录和贷款审批,企业希望证明模型不会产生幻觉。Bedrock的答案是自动推理,这个功能运行一个独立的验证器——本质上是一个逻辑证明引擎——来验证每个响应。如果验证器无法达到99.9%的置信度,它会标记答案供人工审查。
这种技术借鉴了AWS自己的安全工具,如IAM访问分析器。"我们多年来一直使用形式化方法来验证权限,"Deo说。现在AWS将它们应用到语言上。
摩根大通首席信息官Lori Beer在去年AWS re:Invent会议上对我说,制药和银行业的CIO喜欢这个概念。"对我们来说,生成式AI只是另一个应用程序——但它对网络安全韧性的要求极高,"她说。
可观测性:下一个前沿
即使有了证明机制,公司也必须审计谁——或什么——在何时做了什么。传统的应用性能监控在API调用处停止;智能体需要对整个管道进行X射线般的透视。AWS在CloudTrail中记录每个Bedrock提示和响应,但Deo承认这只是一个开始。"我们需要智能体评估、血缘追踪、回滚工具——相当于自主工作流的Git历史,"他说。
观察者预期在re:Invent之前会有新服务,用于可视化智能体流程并标记准确性或合规性的偏移。
三层堆栈
Deo的团队将Bedrock定位为三层策略的中间层:
基础设施——定制芯片(Trainium、Graviton)和Amazon SageMaker,供想要构建或精细调整自己模型的客户使用。
Bedrock平台——现成的和第三方模型,以及提示缓存和多智能体协作等工具。
应用程序——完全托管的软件,如Q Developer和Q Business,让程序员和业务分析师能够用普通英语编写查询。
目标是:让对冲基金量化分析师深入使用SageMaker,同时让非技术保险理赔员将文件拖入Q Business并立即获得理赔报告——两者都由相同的Bedrock基元支撑。
独角兽公司的单人创业
新堆栈最激进的含义或许是Deo所说的"单人创业独角兽"。"你将看到由单个个人驱动的数十亿美元公司——这是时间问题,而不是可能性问题,"他说。这些工具现在抽象化了基础设施、编码语法甚至业务流程连接。
这一前景让风险投资家兴奋,让现有企业紧张。这也解释了亚马逊的紧迫感:Bedrock每延迟一个月推出功能,就可能让车库创业公司选择不同的云平台。
规模化冲刺
AWS能否在承载万亿美元母公司利润负担的同时保持冲刺?六个月的云业务成果——七个模型、四个成本节约工具、两个新协议——表明它可以做到。然而,谷歌和微软将以自己的降价和智能体工具包作为回应。从欧洲到华盛顿的监管机构正试图监管和理解AI供应链。
Deo回到AWS的共同主题。"速度是我们的优势,"他说,呼应了AWS首席执行官Matt Garman的口号。"我们必须比客户的想象力更快地交付硬件、成本控制、防护栏和创新。"
换句话说,世界上最大的云服务商必须表现得像一家初创公司——同时运营着小城市规模的数据中心。Atul Deo合上了他的笔记本;下周又有一个模型发布。
观察者预期在re:Invent之前会有新服务,用于可视化智能体流程并标记准确性或合规性的偏移。
本文链接:http://www.xihao.site/showinfo-1-79930.htmlAWS Bedrock负责人Atul Deo:更便宜AI与新型智能体的未来之路