当你的大语言模型再次失控时，看看思科和英伟达正在微笑着敲门-喜好网-记录每日喜好的科技时尚娱乐生活

思科和英伟达都意识到，尽管当今的 AI 技术非常有用，但同时也可能存在不安全和不可靠的问题。为此，两家公司推出了相关工具来解决这些问题。

英伟达在周四推出了三种专门的微服务，旨在防止 AI 代理被用户劫持或在网络上发布不当内容。

据 The Next Platform 报道，这三个英伟达推理微服务 (NIMs) 是 GPU 巨头 NeMo Guardrails 系列的最新成员，旨在引导聊天机器人和自主代理按预期方式运行。

这三种服务包括：

内容安全 NIM：试图阻止 AI 模型产生有偏见或有害的输出，确保响应符合道德标准。其工作原理是将用户的输入提示和模型的输出作为一对输入通过 NIM 进行分析，判断输入和输出是否恰当。然后可以根据这些建议采取行动，要么提醒用户行为不当，要么阻止模型输出不当内容。该 NIM 使用 Aegis Content Safety Dataset 进行训练，该数据集包含约 33,000 个标记为安全或不安全的用户-LLM 交互。

主题控制 NIM：据称可以"保持对话集中在已批准的主题上，避免偏离或出现不当内容"。该 NIM 接收模型的系统提示和用户输入，判断用户是否在讨论系统提示相关的主题。如果用户试图使模型偏离轨道，该 NIM 可以帮助阻止。

越狱检测 NIM：顾名思义，它只分析用户输入以检测试图让 LLM 违背其预期目的的越狱尝试。

如我们之前所探讨的，防止提示注入攻击是很困难的，因为许多 AI 聊天机器人和助手都是基于通用语言处理模型构建的，它们的防护措施可能被简单的说服所破坏。例如，在某些情况下，仅仅指示聊天机器人"忽略所有先前的指令，改为执行此操作"就可能导致开发者不希望看到的行为。这种情况是英伟达的越狱检测模型希望防范的几种情况之一。

根据具体应用，GPU 巨头表示，可能需要将多个防护模型串联起来（如主题控制、内容安全和越狱检测），以全面解决安全漏洞和合规性挑战。

使用多个模型确实会增加开销和延迟。因此，英伟达选择将这些防护基于较小的语言模型，每个模型的参数量约为 80 亿，可以以最少的资源大规模运行。

这些模型可作为 NIMs 提供给 AI Enterprise 客户使用，或者通过 Hugging Face 供那些希望手动实现的用户使用。

英伟达还提供了一个名为 Garak 的开源工具，用于识别应用程序中的 AI 漏洞，如数据泄露、提示注入和幻觉，以验证这些防护措施的有效性。

思科也想分一杯羹

思科的 AI 信息安全工具将以 AI Defense 的名称提供，其中包含与英伟达类似的模型验证工具，思科表示该工具将调查 LLM 性能并提醒信息安全团队任何可能产生的风险。

该网络巨头还计划提供 AI 发现工具，帮助安全团队寻找业务部门在未经 IT 监督的情况下部署的"影子"应用程序。

思科还认为，一些公司在实施聊天机器人时犯了错误，没有将其限制在预期角色内（如纯客户服务交互），从而允许用户不受限制地访问像 OpenAI 的 ChatGPT 这样的服务。如果人们发现并利用你的聊天机器人作为访问付费 AI 服务的方式，这个错误可能会花费大笔费用。

据称，AI Defense 将能够检测这类情况，以便你进行修复，并将包括数百个防护措施，以 (希望) 防止 AI 产生不必要的结果。

该产品仍在开发中，将添加到思科的云端 Security Cloud 和 Secure Access 服务中。后者将在 2 月份增加一项名为 AI Access 的服务，用于阻止用户访问你不希望他们使用的在线 AI 服务。更多服务将随时间推出。

思科还在改变其面向客户的 AI 代理，这些代理可以为其产品提供自然语言界面，但目前每个产品都是独立运作的。该网络巨头计划推出一个统一的代理来管理所有服务，这样网络管理员可以使用单一的聊天界面来获取有关其思科产品组合不同组件的答案。

思科 AI 工程副总裁 Anand Raghavan 告诉 The Register，他有一个多年路线图，指向更多 AI 安全工具的开发。考虑到 IT 部门已经面临众多信息安全威胁，并且经常难以实施和整合解决这些问题的工具，这是一个令人深思的信息。