版本发布说明

Alluxio Enterprise AI 3.8

新功能

S3 API 高性能写入缓存

circle-exclamation

本次发布为 Alluxio 的 S3 Put API 引入了高性能写入缓存,能够加速 S3 兼容存储的对象写入性能。此前,Alluxio 提供了显著的读取性能提升,但写入操作受限于底层对象存储。通过此功能,Alluxio 现在可以为 S3 工作负载提供写入加速,实现更低的延迟、更高的吞吐量和可扩展的性能。

应用场景

此功能专为向 S3 兼容存储执行大量对象写入的工作负载而设计,例如:

  • AI/ML训练业务中的中间状体数据写入

  • 媒体和内容平台业务中需存取大量数据

  • 高频数据存取和流式传输管道

用户可以将 Alluxio 部署为写入缓存层,在保持 S3 兼容性的同时大幅提高写入性能。

主要优势

  • 写入延迟降低 5-10 倍:将 S3 Put 延迟从约 50 毫秒降低到 10 毫秒以下。

  • 写入吞吐量提升:每个 Worker 可达 6 GB/s,且随 Worker 数量线性扩展。

局限性

  • 本次发布暂不支持分块上传 (MPU) API 的写入缓存。

请参阅 S3 写入缓存 了解如何启用和配置这些功能。

优化 .safetensors 模型加载

本次发布引入了感知 safetensors 的模型加载优化,显著减少了大规模模型推理工作负载的冷启动时间。通过理解 safetensor 元数据和访问模式,Alluxio 将数千个小的随机读取合并为大的顺序读取,为模型加载提供接近本地磁盘的性能。这实现了更快的模型初始化、更快的部署周期以及响应更迅速的推理系统。

应用场景

此功能专为频繁加载 safetensors 格式大模型的 AI 和 ML 推理平台设计,包括:

  • 动态部署和扩展模型的模型即服务 (MaaS) 平台

  • 运行自管理模型服务管道的企业

  • 需要频繁重新加载模型的 A/B 测试和模型迭代工作流

  • 冷启动延迟影响用户体验和 SLA 的大规模推理集群

通过加速 safetensor 模型加载,团队可以减少启动延迟并提高运营敏捷性。

主要优势

  • 显著加快冷启动:将模型加载时间从分钟级缩短到秒级。

  • 接近本地磁盘的性能:对于大模型,性能达到 NVMe 本地磁盘速度的约 90%。

  • 相比网络存储的巨大性能提升:比 AWS FSx Lustre 快高达 18 倍。

局限性

  • 仅通过 Alluxio FUSE 接口支持。

请参阅 优化 AI 模型加载 了解如何启用和配置这些功能。

Job Service (Coordinator) 高可用性

此功能专为依赖 Alluxio Job Service 管理数据加载、驱逐和生命周期工作流的生产环境设计,包括:

  • 动态预加载或释放数据集的 AI/ML 业务

  • 需要高可用性和零停机操作的企业部署

主要优势

  • 消除单点故障:多个 (N) Coordinator 确保即使 N-1 个 Coordinator 发生故障,Job Service 仍然可用。

  • 高可用性与弹性:在故障和维护窗口期间持续进行作业提交和调度。

  • 可扩展的作业吞吐量:支持持续数小时每秒提交 100+ 个作业。

  • 实时作业可见性:提供实时作业状态监控,实现操作透明化。

  • 企业级可靠性:专为具有严格正常运行时间要求的生产级部署而设计。

请参阅 管理 Coordinators 了解如何启用和配置这些功能。

Last updated