访问数据

Alluxio 提供了多种接口供应用程序访问数据，确保与各种现有工具和框架的兼容性。它还提供了强大的功能来优化性能和确保高可用性。本指南概述了主要的数据访问方法和相关功能。

核心数据访问 API

Alluxio 为应用程序和用户提供了多种与所管理数据交互的方式：

通过 FUSE 的 POSIX API：将 Alluxio 挂载为本地文件系统，允许任何应用程序或命令行工具（ls、cat、cp）使用标准文件操作与 Alluxio 交互。这是与现有应用程序无缝集成的最常用方法，尤其适用于 ML/AI 训练工作负载。
S3 API：公开一个与 S3 兼容的端点，允许使用 AWS S3 SDK（如 Python 的 boto3 或 Java S3 客户端）构建的应用程序连接到 Alluxio。这对于已经与 S3 集成的数据科学和 ML 工作负载是理想选择。
通过 FSSpec 的 Python API：为使用 Pandas、PyArrow 和 Ray 等库的开发人员提供的 Pythonic 文件系统接口（alluxiofs）。它提供了一种在 Python 生态系统内与 Alluxio 进行原生高效交互的方式。

Alluxio 包含多项旨在加速数据 I/O 和元数据操作的功能，确保您的应用程序以最高速度运行。

Alluxio 旨在具有弹性，并确保即使在组件或基础设施发生故障时数据也始终可用。

UFS 回退：如果 Alluxio worker 不可用，客户端可以自动回退到直接从 UFS 读取，确保读取请求不中断地成功。
管理文件多副本：将文件配置为在不同的 Alluxio worker 上拥有多个副本。如果一个 worker 变得不可用，客户端可以无缝故障转移到另一个副本。这还通过分散负载来提高热门文件的读取性能。
在多个可用区（Multi-AZ）中部署：跨多个可用区（AZ）部署 Alluxio 集群。如果整个 AZ 发生故障，客户端可以自动故障转移到另一个 AZ 中的 Alluxio 集群，从而提供强大的灾难恢复和不间断的服务。

Last updated 1 day ago