亚马逊推出全新AI语音模型Nova Sonic,叫板OpenAI和谷歌

2个月前 15观看

4 月 9 日消息,亚马逊发布了名为 Nova Sonic 的新一代生成式 AI 模型,该模型能够原生处理语音并生成自然流畅的语音。据亚马逊声称,Nova Sonic 在速度、语音识别以及对话质量等关键指标的基准测试中,表现可与 OpenAI 和谷歌的前沿语音模型相媲美。hmx喜好网-记录每日喜好的科技时尚娱乐生活

hmx喜好网-记录每日喜好的科技时尚娱乐生活

Nova Sonic 的问世是亚马逊对新兴 AI 语音模型的有力回应,例如为 ChatGPT 语音模式提供支持的模型,相较于亚马逊早期的 Alexa 等较为刻板的模型,这些新模型在语音交互时更加自然。hmx喜好网-记录每日喜好的科技时尚娱乐生活

Nova Sonic 通过亚马逊的 Bedrock 开发者平台提供给用户,该平台是用于构建企业级 AI 应用的工具,Nova Sonic 则通过一个全新的双向流式 API 进行接入。在一份新闻稿中,亚马逊称 Nova Sonic 是市场上“最具成本效益”的 AI 语音模型,其价格比 OpenAI 的 GPT-4o 便宜约 80%。hmx喜好网-记录每日喜好的科技时尚娱乐生活

据亚马逊高级副总裁兼人工通用智能(AGI)部门首席科学家罗希特・普拉萨德介绍,Nova Sonic 的部分组件已经为亚马逊升级版数字语音助手 Alexa+ 提供了动力支持。hmx喜好网-记录每日喜好的科技时尚娱乐生活

普拉萨德表示,与竞争对手的 AI 语音模型相比,Nova Sonic 在将用户请求路由到不同 API 方面表现出色。这一能力使得 Nova Sonic 能够知晓何时需要从互联网获取实时信息、解析专有数据源,或者在外部应用程序中采取行动,并使用合适的工具来完成任务。hmx喜好网-记录每日喜好的科技时尚娱乐生活

在双向对话中,Nova Sonic 会等待“合适的时机”发言,会考虑到说话者的停顿和打断等情况。此外,Nova Sonic 还能够为用户的语音生成文本记录,开发者可以将这些文本用于各种应用场景。hmx喜好网-记录每日喜好的科技时尚娱乐生活

据普拉萨德介绍,Nova Sonic 在语音识别错误方面比其他 AI 语音模型更少,这意味着该模型即使在用户咕哝、说错话或者处于嘈杂环境中时,也相对擅长理解用户的意图。在一项衡量跨语言和方言的语音识别基准测试 —— 多语言 LibriSpeech 中,亚马逊表示 Nova Sonic 在英语、法语、意大利语、德语和西班牙语上的平均单词错误率(WER)仅为 4.2%。也就是说,在这些语言中,该模型每 100 个单词中大约有 4 个与人工转录的结果不同。hmx喜好网-记录每日喜好的科技时尚娱乐生活

IT之家注意到,在另一项衡量多人参与的高音量互动的基准测试 —— 增强多方互动中,亚马逊称 Nova Sonic 在单词错误率方面比 OpenAI 的 GPT-4o-transcribe 模型准确率高出 46.7%。Nova Sonic 还拥有行业领先的速度,其平均感知延迟为 1.09 秒,亚马逊表示。这一速度比为 OpenAI 的实时 API 提供动力的 GPT-4o 模型更快,后者响应时间为 1.18 秒,这是根据人工分析的基准测试结果得出的。hmx喜好网-记录每日喜好的科技时尚娱乐生活

普拉萨德称,Nova Sonic 是亚马逊构建人工通用智能(AGI)这一更广泛战略的一部分,公司定义 AGI 为“能够在计算机上完成人类所能做的一切事情的 AI 系统”。展望未来,普拉萨德表示,亚马逊计划推出更多能够理解不同模态(包括图像、视频和语音)的 AI 模型,以及“其他在将事物引入物理世界时相关的感官数据”。hmx喜好网-记录每日喜好的科技时尚娱乐生活

由普拉萨德负责的亚马逊 AGI 部门,如今似乎在公司产品战略中扮演着越来越重要的角色。就在上周,亚马逊刚刚推出了 Nova Act 的预览版,这是一个使用浏览器的 AI 模型,似乎为 Alexa+ 和亚马逊的“代我购买”功能的部分元素提供了支持。普拉萨德表示,从 Nova Sonic 开始,公司希望将更多内部的 AI 模型提供给开发者使用,以助力他们构建各种应用。hmx喜好网-记录每日喜好的科技时尚娱乐生活

【来源:IT之家hmx喜好网-记录每日喜好的科技时尚娱乐生活

本文链接:http://www.xihao.site/showinfo-1-72709.html亚马逊推出全新AI语音模型Nova Sonic,叫板OpenAI和谷歌

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com。天上从来不会掉馅饼,请大家时刻谨防诈骗