版本发布说明

Alluxio Enterprise AI 3.7

最新功能

透明分布式 S3 缓存,实现亚毫秒级延迟

当下,AI/ML 工作负载(如 PyTorch、TensorFlow)依赖 Amazon S3(或兼容 S3 的存储)来实现可扩展数据访问,但面临着吞吐量和延迟挑战。Alluxio Enterprise AI 通过在 GPU 旁部署 Alluxio 缓存,提供兼容 S3 接口的高性能数据访问,实现个位数毫秒级延迟,同时保持高吞吐量,从而弥合这一差距。

使用场景

  • 模型训练:通过S3接口访问数据集,需要更高性能

  • 模型部署:通过S3接口加载模型文件,需要更高性能

  • 模型推理:从AWS S3上的Parquet文件加载特征

核心优势

  • 加速 AI/ML 工作负载

    • 将数据缓存到 GPU 节点 NVMe,消除重复读取时的 S3 访问延迟

    • 在迭代型工作负载(如模型训练)中,实现接近本地 NVMe 的吞吐和延迟

  • 降低云访问成本

    • 在 GPU 节点旁缓存数据,可减少高达 70% 的出口流量和 API 调用费用

性能结果:

  • 个位数毫秒延迟:Alluxio相较 Standard AWS S3延迟最高降低45倍,相较 AWS S3 Express One Zone最高降低5倍

  • 高吞吐量:在100Gbps网络下提供高达11.5GiB/s(98.7 Gbps)吞吐量,比同区域AWS S3读取吞吐量提升2倍

  • 性能可线性扩展

Alluxio将S3转变为高性能、低延迟的AI数据枢纽, 消除I/O等待,同时大幅降低云成本。

详见S3 API 文档,了解如何设置Alluxio的S3接口及不同类型客户端的用法示例。

通过Spark实现高性能AI数据预处理

Alluxio 新功能可加速通过Spark流处理和ETL管道进行的AI数据预处理。通过原生Spark集成及其分布式缓存架构,Alluxio为AI/ML应用加速数据处理工作流。

使用场景:

  • 在AI管道中,用户需要通过Spark快速预处理数据集

**核心优势: **

  • 加速AI工作负载:减少数据加载/转换时间

  • 简化扩展性:无需重新设计管道即可处理PB级数据集

  • 无缝集成:兼容现有Spark代码及存储系统(HDFS、S3等)

性能结果:在TPC-DS SF100(100GB)基准测试中,Alluxio相较直接访问AWS S3查询性能提升高达3倍,在135个查询中平均加速32%。

此功能对负责大规模特征工程的 ML 工程师和数据团队尤为有价值,同时保持与标准 Spark 生态系统的兼容性。

通过分区并行处理,实现大文件缓存预加载提速5倍

Alluxio 支持将底层存储(UFS)中的数据预加载至缓存。增强后的功能引入了分区和并行数据加载机制,在处理大文件(通常 >1GB)时性能提升 5 倍,确保数据传输至缓存更快更高效。

使用场景:

  • 模型训练:需要快速访问预加载数据集,加快训练过程并减少加载延迟

  • 模型部署:快速加载大型模型文件,缩短冷启动时间,实现更快推理和响应

关键增强:

  • 分区数据加载:

    • 大文件被分割为更小可管理块(分区)以实现快速加载。

    • 分区确保每个数据块都可以独立处理,从而实现更好的可扩展性和资源利用率

  • 并行数据加载

    • 每个分区并行加载,大幅减少整体文件加载时间

    • 并行加载最大化带宽和计算资源使用率, 大幅提升性能

  • 资源效率 :

    • 分区方式将负载均匀分布到可用的计算资源上,确保系统资源的平衡利用。

    • 减少瓶颈并提升吞吐量

基于角色的 S3 访问控制(RBAC)

Alluxio 新增基于角色的 S3 访问控制(RBAC) 功能,增强了数据安全与访问管控。管理员可以定义精细化的访问权限(读/写),或通过 Alluxio 的统一命名空间集成现有 S3 的认证与授权服务。

  • 认证:支持基于 OIDC/OAuth 2.0 的认证(如 Okta、Cognito、Microsoft AD)

  • 授权:支持 Ranger

该功能通过扩展企业级认证和授权至 S3 数据,弥补了合规缺口,同时保持 Alluxio 的缓存与加速优势。

参考启用身份验证启用授权了解如何启用和配置此功能。

FUSE 无中断升级

传统的 FUSE 更新在生产环境中带来重大的运维挑战。更新 Linux FUSE 服务时,管理员必须重启服务,这会强制中断所有活跃连接和已挂载的文件系统。这种强制性停机会干扰正在运行的应用和业务流程,尤其对依赖 FUSE 挂载进行持续访问的数据密集型操作造成严重影响。

Alluxio 全新的 FUSE 无中断升级功能从根本上改变了这一模式。该技术支持在保留所有现有连接和挂载点的情况下,就地升级 FUSE 服务。应用程序在整个升级过程中能够正常运行。此项改进对运行 24/7 数据管道或无法容忍停机的面向客户的应用尤其具有重要价值。

在本次发布中已知的限制是:在 FUSE 升级过程中,读操作(read、stat)会被挂起并在数十秒内恢复;而写操作(write、mv、delete)和目录列操作(readdir)仍将失败。

有关如何启用该功能,请参见 无中断 FUSE 迁移

集群管理控制台增强

支持通过控制台部署集群:在安装 Alluxio K8s Operator 后,可以通过集群部署 WebUI 继续完成后续的设置流程。该图形化界面提供了一种直观的替代方案,无需手动配置,即可让管理员以可视化方式管理集群参数、资源分配和部署流程。此功能在保持 Alluxio 分布式架构灵活性的同时,大大降低了部署的复杂性。

作业管理增强: 在本次发布中,Alluxio 管理控制台强化了作业管理功能:

  • 为作业添加有意义的名称

  • 支持作业历史列表的分页显示

更多信息参见管理控制台部署中的新章节。

审计日志

Alluxio 引入了新的审计日志功能,以增强安全性和合规性监控。该功能系统性地记录详细的访问事件,包括用户身份、执行的操作(如读/写)及时间戳。通过这些日志,管理员可以分析数据访问模式、检测异常情况,从而满足监管要求。

有关如何启用审计日志,请参考启用审计日志

Last updated