版本发布说明
Alluxio Enterprise AI 3.7
最新功能
透明分布式 S3 缓存,实现亚毫秒级延迟
当下,AI/ML 工作负载(如 PyTorch、TensorFlow)依赖 Amazon S3(或兼容 S3 的存储)来实现可扩展数据访问,但面临着吞吐量和延迟挑战。Alluxio Enterprise AI 通过在 GPU 旁部署 Alluxio 缓存,提供兼容 S3 接口的高性能数据访问,实现个位数毫秒级延迟,同时保持高吞吐量,从而弥合这一差距。
使用场景:
模型训练:通过S3接口访问数据集,需要更高性能
模型部署:通过S3接口加载模型文件,需要更高性能
模型推理:从AWS S3上的Parquet文件加载特征
核心优势:
加速 AI/ML 工作负载
将数据缓存到 GPU 节点 NVMe,消除重复读取时的 S3 访问延迟
在迭代型工作负载(如模型训练)中,实现接近本地 NVMe 的吞吐和延迟
降低云访问成本
在 GPU 节点旁缓存数据,可减少高达 70% 的出口流量和 API 调用费用
性能结果:
个位数毫秒延迟:Alluxio相较 Standard AWS S3延迟最高降低45倍,相较 AWS S3 Express One Zone最高降低5倍
高吞吐量:在100Gbps网络下提供高达11.5GiB/s(98.7 Gbps)吞吐量,比同区域AWS S3读取吞吐量提升2倍
性能可线性扩展
Alluxio将S3转变为高性能、低延迟的AI数据枢纽, 消除I/O等待,同时大幅降低云成本。
详见S3 API 文档,了解如何设置Alluxio的S3接口及不同类型客户端的用法示例。
通过Spark实现高性能AI数据预处理
Alluxio 新功能可加速通过Spark流处理和ETL管道进行的AI数据预处理。通过原生Spark集成及其分布式缓存架构,Alluxio为AI/ML应用加速数据处理工作流。
使用场景:
在AI管道中,用户需要通过Spark快速预处理数据集
**核心优势: **
加速AI工作负载:减少数据加载/转换时间
简化扩展性:无需重新设计管道即可处理PB级数据集
无缝集成:兼容现有Spark代码及存储系统(HDFS、S3等)
性能结果:在TPC-DS SF100(100GB)基准测试中,Alluxio相较直接访问AWS S3查询性能提升高达3倍,在135个查询中平均加速32%。
此功能对负责大规模特征工程的 ML 工程师和数据团队尤为有价值,同时保持与标准 Spark 生态系统的兼容性。
通过分区并行处理,实现大文件缓存预加载提速5倍
Alluxio 支持将底层存储(UFS)中的数据预加载至缓存。增强后的功能引入了分区和并行数据加载机制,在处理大文件(通常 >1GB)时性能提升 5 倍,确保数据传输至缓存更快更高效。
使用场景:
模型训练:需要快速访问预加载数据集,加快训练过程并减少加载延迟
模型部署:快速加载大型模型文件,缩短冷启动时间,实现更快推理和响应
关键增强:
分区数据加载:
大文件被分割为更小可管理块(分区)以实现快速加载。
分区确保每个数据块都可以独立处理,从而实现更好的可扩展性和资源利用率
并行数据加载:
每个分区并行加载,大幅减少整体文件加载时间
并行加载最大化带宽和计算资源使用率, 大幅提升性能
资源效率 :
分区方式将负载均匀分布到可用的计算资源上,确保系统资源的平衡利用。
减少瓶颈并提升吞吐量
基于角色的 S3 访问控制(RBAC)
Alluxio 新增基于角色的 S3 访问控制(RBAC) 功能,增强了数据安全与访问管控。管理员可以定义精细化的访问权限(读/写),或通过 Alluxio 的统一命名空间集成现有 S3 的认证与授权服务。
认证:支持基于 OIDC/OAuth 2.0 的认证(如 Okta、Cognito、Microsoft AD)
授权:支持 Ranger
该功能通过扩展企业级认证和授权至 S3 数据,弥补了合规缺口,同时保持 Alluxio 的缓存与加速优势。
FUSE 无中断升级
传统的 FUSE 更新在生产环境中带来重大的运维挑战。更新 Linux FUSE 服务时,管理员必须重启服务,这会强制中断所有活跃连接和已挂载的文件系统。这种强制性停机会干扰正在运行的应用和业务流程,尤其对依赖 FUSE 挂载进行持续访问的数据密集型操作造成严重影响。
Alluxio 全新的 FUSE 无中断升级功能从根本上改变了这一模式。该技术支持在保留所有现有连接和挂载点的情况下,就地升级 FUSE 服务。应用程序在整个升级过程中能够正常运行。此项改进对运行 24/7 数据管道或无法容忍停机的面向客户的应用尤其具有重要价值。
在本次发布中已知的限制是:在 FUSE 升级过程中,读操作(read、stat)会被挂起并在数十秒内恢复;而写操作(write、mv、delete)和目录列操作(readdir)仍将失败。
有关如何启用该功能,请参见 无中断 FUSE 迁移。
集群管理控制台增强
支持通过控制台部署集群:在安装 Alluxio K8s Operator 后,可以通过集群部署 WebUI 继续完成后续的设置流程。该图形化界面提供了一种直观的替代方案,无需手动配置,即可让管理员以可视化方式管理集群参数、资源分配和部署流程。此功能在保持 Alluxio 分布式架构灵活性的同时,大大降低了部署的复杂性。
作业管理增强: 在本次发布中,Alluxio 管理控制台强化了作业管理功能:
为作业添加有意义的名称
支持作业历史列表的分页显示
更多信息参见管理控制台部署中的新章节。
审计日志
Alluxio 引入了新的审计日志功能,以增强安全性和合规性监控。该功能系统性地记录详细的访问事件,包括用户身份、执行的操作(如读/写)及时间戳。通过这些日志,管理员可以分析数据访问模式、检测异常情况,从而满足监管要求。
有关如何启用审计日志,请参考启用审计日志 。
Last updated