版本发布说明
Alluxio Enterprise AI 3.8
新功能
S3 API 高性能写入缓存
实验性功能
本次发布为 Alluxio 的 S3 Put API 引入了高性能写入缓存,能够加速 S3 兼容存储的对象写入性能。此前,Alluxio 提供了显著的读取性能提升,但写入操作受限于底层对象存储。通过此功能,Alluxio 现在可以为 S3 工作负载提供写入加速,实现更低的延迟、更高的吞吐量和可扩展的性能。
应用场景
此功能专为向 S3 兼容存储执行大量对象写入的工作负载而设计,例如:
AI/ML训练业务中的中间状体数据写入
媒体和内容平台业务中需存取大量数据
高频数据存取和流式传输管道
用户可以将 Alluxio 部署为写入缓存层,在保持 S3 兼容性的同时大幅提高写入性能。
主要优势
写入延迟降低 5-10 倍:将 S3 Put 延迟从约 50 毫秒降低到 10 毫秒以下。
写入吞吐量提升:每个 Worker 可达 6 GB/s,且随 Worker 数量线性扩展。
局限性
本次发布暂不支持分块上传 (MPU) API 的写入缓存。
请参阅 S3 写入缓存 了解如何启用和配置这些功能。
优化 .safetensors 模型加载
本次发布引入了感知 safetensors 的模型加载优化,显著减少了大规模模型推理工作负载的冷启动时间。通过理解 safetensor 元数据和访问模式,Alluxio 将数千个小的随机读取合并为大的顺序读取,为模型加载提供接近本地磁盘的性能。这实现了更快的模型初始化、更快的部署周期以及响应更迅速的推理系统。
应用场景
此功能专为频繁加载 safetensors 格式大模型的 AI 和 ML 推理平台设计,包括:
动态部署和扩展模型的模型即服务 (MaaS) 平台
运行自管理模型服务管道的企业
需要频繁重新加载模型的 A/B 测试和模型迭代工作流
冷启动延迟影响用户体验和 SLA 的大规模推理集群
通过加速 safetensor 模型加载,团队可以减少启动延迟并提高运营敏捷性。
主要优势
显著加快冷启动:将模型加载时间从分钟级缩短到秒级。
接近本地磁盘的性能:对于大模型,性能达到 NVMe 本地磁盘速度的约 90%。
相比网络存储的巨大性能提升:比 AWS FSx Lustre 快高达 18 倍。
局限性
仅通过 Alluxio FUSE 接口支持。
请参阅 优化 AI 模型加载 了解如何启用和配置这些功能。
Job Service (Coordinator) 高可用性
此功能专为依赖 Alluxio Job Service 管理数据加载、驱逐和生命周期工作流的生产环境设计,包括:
动态预加载或释放数据集的 AI/ML 业务
需要高可用性和零停机操作的企业部署
主要优势
消除单点故障:多个 (N) Coordinator 确保即使 N-1 个 Coordinator 发生故障,Job Service 仍然可用。
高可用性与弹性:在故障和维护窗口期间持续进行作业提交和调度。
可扩展的作业吞吐量:支持持续数小时每秒提交 100+ 个作业。
实时作业可见性:提供实时作业状态监控,实现操作透明化。
企业级可靠性:专为具有严格正常运行时间要求的生产级部署而设计。
请参阅 管理 Coordinators 了解如何启用和配置这些功能。
Last updated