亚马逊推出新实时语音模型 Nova Sonic,面向第三方企业开发

1周前 6观看

亚马逊作为电子商务巨头广为人知,而其 Alexa AI 语音助手产品则可能排在其知名产品清单的稍后位置。上个月,Alexa 在 Amazon Nova 和亚马逊投资的 Anthropic 的帮助下获得了重大智能升级。bus喜好网-记录每日喜好的科技时尚娱乐生活

现在,Alexa 将迎来一位新的亚马逊语音 AI 兄弟:今天,该公司推出了 Amazon Nova Sonic,这是一个新的基础模型,旨在让第三方应用开发者通过亚马逊的 Bedrock 网络平台为其产品构建实时、自然、对话式的语音交互功能。bus喜好网-记录每日喜好的科技时尚娱乐生活

Nova Sonic 现已通过双向流式应用程序接口 (API) 提供服务。实际上,亚马逊已经将其部分功能——提供表征的语音编码器和语音合成器——整合到了新的 Alexa 模型 Alexa+ 中。bus喜好网-记录每日喜好的科技时尚娱乐生活

"这种方法使我们能够同时将语音技术的优势应用于不同的使用场景,同时基于客户反馈和技术进步继续发展这两个系统,"一位发言人告诉我们。bus喜好网-记录每日喜好的科技时尚娱乐生活

显而易见的应用场景包括客户支持和服务、指导、信息检索和娱乐。bus喜好网-记录每日喜好的科技时尚娱乐生活

统一的方法bus喜好网-记录每日喜好的科技时尚娱乐生活

Nova Sonic 解决了语音 AI 中的一个关键挑战:技术的碎片化。bus喜好网-记录每日喜好的科技时尚娱乐生活

亚马逊人工通用智能 (AGI) 高级副总裁兼首席科学家 Rohit Prasad 昨天在通过亚马逊 Chime 视频服务与 VentureBeat 的视频通话采访中表示,传统上,构建语音界面需要结合语音识别、语言处理和语音合成的独立模型。bus喜好网-记录每日喜好的科技时尚娱乐生活

这种复杂性通常导致机械、不自然的交互以及增加开发成本。bus喜好网-记录每日喜好的科技时尚娱乐生活

现在,Sonic 试图通过将这三种不同类型的模型合并为一个整体来改进这种状况。bus喜好网-记录每日喜好的科技时尚娱乐生活

Prasad 解释了该模型的核心创新:"Nova Sonic 将传统上分离的三个模型——语音转文本、文本理解和文本转语音——整合为一个统一系统,不仅能模拟交流的'内容',还能模拟交流的'方式'。"bus喜好网-记录每日喜好的科技时尚娱乐生活

通过保留声学上下文——如语调、节奏和风格——Nova Sonic 有助于保持人类对话的细微差别。bus喜好网-记录每日喜好的科技时尚娱乐生活

识别实时双向音频对话的复杂性和特点bus喜好网-记录每日喜好的科技时尚娱乐生活

Nova Sonic 的一个显著能力是处理实时双向对话。它能识别用户何时停顿、犹豫或打断——这些都是人类语音中常见的行为——并能流畅地响应同时保持上下文。bus喜好网-记录每日喜好的科技时尚娱乐生活

"这里的真正突破是实时、互动、低延迟的语音交互,这意味着你可以在 AI 说话中途打断它,它仍然能保持上下文并做出连贯回应,"Prasad 说。这一特性在客户服务等场景中尤为重要,因为响应性和适应性至关重要。bus喜好网-记录每日喜好的科技时尚娱乐生活

内置工具使用和工作流集成bus喜好网-记录每日喜好的科技时尚娱乐生活

Nova Sonic 还设计为与其他系统无缝集成。它自动生成口头输入的转录,可用于触发 API 或与专有工具交互。这使公司能够构建 AI 代理,执行预约、检索实时信息或回答复杂客户查询等任务。bus喜好网-记录每日喜好的科技时尚娱乐生活

"你可以通过 Amazon Bedrock 使用 Nova Sonic,并将其与任何工具或专有数据源连接,甚至是视觉数据源,只要它们被包装为可调用的 API,"Prasad 说。这种灵活性使该模型适用于广泛的行业,从教育和旅游到企业运营和娱乐。bus喜好网-记录每日喜好的科技时尚娱乐生活

基准性能和行业比较bus喜好网-记录每日喜好的科技时尚娱乐生活

Nova Sonic 已与其他实时语音模型进行了基准测试,包括 OpenAI 的 GPT-4o 和 Google 的 Gemini Flash 2.0。在 Common Eval 数据集上,使用男性声音的美式英语单轮对话,它对 Gemini Flash 2.0 的胜率达到 69.7%,对 GPT-4o 的胜率达到 51.0%。女性声音和英式英语声音也有类似的优势。bus喜好网-记录每日喜好的科技时尚娱乐生活

Prasad 强调了 Nova Sonic 在其主要语言市场的强劲表现:"Nova Sonic 目前在美式和英式英语方面是同类最佳,在对话自然度和准确性方面甚至超过了 GPT-4o 实时版。"他补充道,"据我们所知,只有两个其他模型——GPT-4o 实时版和 GPT-4o mini 的一个变体——在实时结合语音理解和生成方面接近 Nova Sonic 的水平。这个领域仍然非常早期且非常困难。"bus喜好网-记录每日喜好的科技时尚娱乐生活

多语言能力和噪声环境处理bus喜好网-记录每日喜好的科技时尚娱乐生活

在语音识别方面,Nova Sonic 在多语言和真实环境条件下也表现出色。在多语言 LibriSpeech 基准测试中,它的词错误率 (WER) 为 4.2%,在英语、法语、德语、意大利语和西班牙语方面比 GPT-4o Transcribe 高出 36% 以上。在嘈杂的多说话人环境中(使用 AMI 基准测量),Nova Sonic 的 WER 比 GPT-4o Transcribe 改进了 46.7%。bus喜好网-记录每日喜好的科技时尚娱乐生活

表现力丰富的声音和语言扩展bus喜好网-记录每日喜好的科技时尚娱乐生活

目前,该模型支持多种表现力丰富的声音,包括美式和英式英语的男性和女性声音。亚马逊表示,其他口音和语言正在开发中,将在未来更新中发布。bus喜好网-记录每日喜好的科技时尚娱乐生活

低延迟和企业友好的成本bus喜好网-记录每日喜好的科技时尚娱乐生活

速度和成本也是其吸引力的一部分。第三方基准测试显示,Nova Sonic 的客户感知延迟为 1.09 秒,而 OpenAI 的 GPT-4o 为 1.18 秒,Google 的 Gemini Flash 2.0 为 1.41 秒。bus喜好网-记录每日喜好的科技时尚娱乐生活

从定价角度看,亚马逊将 Nova Sonic 定位为企业级解决方案。"我们比 GPT-4o 实时版便宜近 80%,这种优越的性价比正在引起从实验转向部署的企业的共鸣,"Prasad 说。bus喜好网-记录每日喜好的科技时尚娱乐生活

各行业的早期采用bus喜好网-记录每日喜好的科技时尚娱乐生活

据亚马逊称,不同行业的公司已经开始使用或测试 Nova Sonic。bus喜好网-记录每日喜好的科技时尚娱乐生活

ASAPP 正在应用该技术优化联络中心工作流程,称赞其准确性和自然对话处理能力。bus喜好网-记录每日喜好的科技时尚娱乐生活

Education First (EF) 使用该模型为语言学习者提供实时发音反馈,特别是对于具有不同口音的非母语人士。bus喜好网-记录每日喜好的科技时尚娱乐生活

体育数据提供商 Stats Perform 正利用 Nova Sonic 的低延迟和简单设置为其 Opta AI Chat 平台提供快速、数据丰富的交互。bus喜好网-记录每日喜好的科技时尚娱乐生活

负责任的 AI 和安全承诺bus喜好网-记录每日喜好的科技时尚娱乐生活

除了性能和成本外,亚马逊还强调其对负责任 AI 开发的承诺。Nova 系列模型包含内置安全保障,并由 AWS AI 服务卡支持,这些服务卡概述了预期用例、潜在限制和道德准则。bus喜好网-记录每日喜好的科技时尚娱乐生活

Prasad 强调了亚马逊对信任和安全的关注:"信任对我们至关重要——开发者可以在限制范围内定制个性,但我们设置了强大的护栏来防止语音克隆或不必要的模仿。"他补充道,"我们非常努力地消除幻觉和语音漂移。我们为发布设定的标准很高,因为语音生成必须值得信赖。"bus喜好网-记录每日喜好的科技时尚娱乐生活

Amazon Nova Sonic 现已通过 Amazon Bedrock 全面上市。有兴趣探索该模型的开发者和企业可以访问 https://aws.amazon.com/nova/ 开始使用。bus喜好网-记录每日喜好的科技时尚娱乐生活

本文链接:http://www.xihao.site/showinfo-1-72881.html亚马逊推出新实时语音模型 Nova Sonic,面向第三方企业开发

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com。天上从来不会掉馅饼,请大家时刻谨防诈骗