中国燕融将 KVCache 集成到文件系统以加速 AI 推理

5天前 5观看

中国存储软件供应商燕融为 HPC 和 AI 工作负载提供 YRCloudFile 分布式共享文件系统。通过将 KVCache 集成到文件系统中,燕融表示显著提升了 KV 缓存命中率和长上下文处理能力,降低了 AI 推理成本。QWt喜好网-记录每日喜好的科技时尚娱乐生活

YRCloudFile 支持全闪存驱动器和 Nvidia 的 GPUDirect 协议。KVCache 是一种在 AI 模型推理阶段存储中间结果的方式,避免在每个阶段重新计算,从而缩短响应时间。QWt喜好网-记录每日喜好的科技时尚娱乐生活

据了解,YRCloudFile 系统中的 KVCache 可能作为 GPU 服务器集群中的分布式内存层,用于存储经常访问的元数据(即键值对)。QWt喜好网-记录每日喜好的科技时尚娱乐生活

为了验证 YRCloudFile KVCache 的性能,燕融使用公开数据集、行业标准基准测试工具和 NVIDIA GPU 硬件模拟了真实工作负载。结果表明,YRCloudFile KVCache 支持显著更高的并发查询吞吐量,为推理工作负载提供了具体、可量化的价值。QWt喜好网-记录每日喜好的科技时尚娱乐生活

燕融进行了多阶段测试,比较了原生 vLLM 性能与集成 YRCloudFile KVCache 的 vLLM 在不同 token 数量和配置下的表现。QWt喜好网-记录每日喜好的科技时尚娱乐生活

一项测试评估了单个查询在 8,000 至约 30,000 个 token 作为上下文输入时的总响应时间。随着上下文长度增加,使用 KVCache 的 YRCloudFile 在首个 Token 生成时间 (TTFT) 方面实现了 3 倍到超过 13 倍的性能提升。QWt喜好网-记录每日喜好的科技时尚娱乐生活

第二项测试衡量了在 TTFT 值为 2 秒或更短时支持的并发查询数量。结果显示,YRCloudFile KVCache 与原生 vLLM 相比,支持的并发请求数量提高了 8 倍。QWt喜好网-记录每日喜好的科技时尚娱乐生活

第三项测试结果表明,在高并发情况下,YRCloudFile KVCache 在不同上下文长度下实现了超过 4 倍的 TTFT 性能提升。QWt喜好网-记录每日喜好的科技时尚娱乐生活

燕融表示,这些结果展示了"通过分布式存储扩展 GPU 内存如何突破传统计算瓶颈,实现资源利用率的指数级提升"。总的来说,"YRCloudFile KVCache 通过 PB 级缓存扩展将存储资源转化为计算优势,重新定义了 AI 推理的经济性"。QWt喜好网-记录每日喜好的科技时尚娱乐生活

我们认为,YRCloudFile 的 KVCache 与 WEKA 的增强内存网格 (AMG) 有一些相似之处。AMG 是一个软件定义的文件系统扩展,提供了微秒级延迟的 Ex 级缓存容量和每秒数 TB 的带宽,实现接近内存速度的性能。QWt喜好网-记录每日喜好的科技时尚娱乐生活

WEKA 的一篇博客提到,它"将 GPU 内存扩展到 WEKA 数据平台中的 token 仓库,提供接近内存速度的 PB 级持久存储。token 仓库为标记化数据提供持久的、基于 NVMe 的存储,使 AI 系统能够以接近内存的速度存储和检索 token"。QWt喜好网-记录每日喜好的科技时尚娱乐生活

这"使您能够缓存 token 并以微秒级延迟将其传递到 GPU,驱动下一代 AI 工厂所需的大规模、低延迟推理和高效的计算重用"。AMG 的特点是:"在 NVMe 中持久存储标记化数据",而且"token 被存储起来,在推理时从'货架'上取出,而不是针对每个请求持续地按需重新生成"。QWt喜好网-记录每日喜好的科技时尚娱乐生活

AMG "将 GPU 内存扩展为分布式高性能内存结构,提供微秒级延迟和大规模并行 I/O,这对于实时大规模存储和检索 token 至关重要"。QWt喜好网-记录每日喜好的科技时尚娱乐生活

本文链接:http://www.xihao.site/showinfo-1-73086.html中国燕融将 KVCache 集成到文件系统以加速 AI 推理

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com。天上从来不会掉馅饼,请大家时刻谨防诈骗