# 关于Alluxio

Alluxio 是一个分布式数据编排系统，可将您的数据更靠近您的计算框架。它充当您的持久存储（如 Amazon S3、HDFS 或 Azure Blob 存储）和计算框架（如 Spark、Presto 和 PyTorch）之间的缓存层。

通过在计算集群上将频繁访问的数据缓存在内存中，Alluxio 显著加快了数据访问速度，减少了网络拥塞，并消除了 I/O 瓶颈，这对于 AI/ML 训练和大规模数据分析等数据密集型应用尤其重要。

<figure><img src="https://2914458441-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2F9DLx52D5U90JAtJgjlvh%2Fuploads%2Fgit-blob-f701d04389c1da0da8a09d03420a67e56e221e3f%2Fimage%20(1)%20(1)%20(1).png?alt=media" alt=""><figcaption></figcaption></figure>

### 为什么使用 Alluxio？

如果您遇到以下任何挑战，应考虑使用 Alluxio：

* **AI/ML 训练缓慢：** 您昂贵的 GPU 经常处于空闲状态，等待从缓慢的对象存储中获取数据，导致训练时间长、成本高。
* **部署模型冷启动缓慢：** 在部署新模型进行推理时，初始请求很慢，因为必须从远程对象存储下载模型。这种“冷启动”问题导致用户体验不佳，并可能成为自动扩展的瓶颈。
* **数据孤岛：** 您的数据分布在多个数据中心或云提供商中，您需要一种统一的方式来访问它，而无需进行复杂的数据迁移。
* **高昂的出口成本：** 您因重复从对象存储中读取相同数据而向云提供商支付高额费用。

Alluxio 通过以下方式解决这些问题：

* **加速性能：** 通过缓存数据，Alluxio 可以将模型训练和部署的 I/O 性能提高 10 倍以上。
* **提供无缝数据访问：** Alluxio 提供 POSIX (FUSE)、S3 和 FSSpec 等标准 API，允许您的应用程序无需任何代码更改即可连接到您的数据。
* **实现高可扩展性：** 分布式架构可以扩展以处理数十亿个对象和数千个客户端。
* **降低成本：** 通过减少数据出口和消除对专用高性能存储硬件的需求，Alluxio 有助于降低您的总拥有成本。

### 后续步骤

* **了解工作原理：** 在 [Alluxio 工作原理](https://documentation.alluxio.io/ee-ai-cn/how-alluxio-works)中深入了解架构。
* **安装 Alluxio：** 准备好部署了吗？请参阅[入门指南](https://documentation.alluxio.io/ee-ai-cn/start)。


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://documentation.alluxio.io/ee-ai-cn/what-is-alluxio.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
