> For the complete documentation index, see [llms.txt](https://documentation.alluxio.io/ee-ai-cn/llms.txt). Markdown versions of documentation pages are available by appending `.md` to page URLs; this page is available as [Markdown](https://documentation.alluxio.io/ee-ai-cn/what-is-alluxio.md).

# 关于Alluxio

Alluxio 是一个分布式缓存层，部署在对象存储（S3、GCS、Azure Blob、HDFS）与计算框架（PyTorch、vLLM、Spark、Ray）之间。它将热数据拉取到每个计算节点的本地 NVMe 或 SSD 上，使工作负载以本地存储速度读取数据，而无需在每次访问时跨网络请求对象存储——且无需移动或复制原始数据。

<figure><img src="/files/p1IaJ3EhAEyOLRuDX1un" alt=""><figcaption><p>Alluxio 部署在存储与计算之间。热数据缓存在每个计算节点的本地 NVMe/SSD 上，通过 POSIX、S3 兼容 API 或 Python FSSpec 提供给上层框架。</p></figcaption></figure>

## Alluxio 的典型使用场景

**模型训练——读取加速与 checkpoint 写入**

训练任务在多个 epoch 中反复读取相同的数据集文件。没有缓存时，每次读取都需跨网络访问对象存储，导致 GPU 空闲等待。Alluxio 在首次读取后将数据集缓存到 GPU 集群的本地 SSD，后续 epoch 以本地存储速度运行——比反复访问 S3 快 10 倍以上。

对于 checkpoint 写入，Alluxio 的 write-back cache（需要 FoundationDB）将 checkpoint 延迟限定在本地 NVMe 速度范围内，并异步刷新至对象存储，从而消除 checkpoint 对训练循环的阻塞。

**模型分发——消除推理冷启动**

新推理副本启动时，需先从对象存储下载数十至数百 GB 的模型权重，才能处理第一个请求。Alluxio 将模型权重缓存在 GPU 节点上，使副本从本地 NVMe 加载。同时，Alluxio 支持多云模型分发：权重只需拉取一次，即可以线速同时提供给跨云的多个并发 GPU 副本，无需按副本或按云厂商重复下载。

**低延迟 feature store**

从对象存储上的 Parquet 文件或大型数据集检索特征，延迟往往过高，无法满足实时推理或短时交易窗口的需求。Alluxio 将热特征数据缓存在本地 NVMe 上，并通过 POSIX 或 S3 兼容接口对外提供，现有查询引擎和 dataframe 库无需任何改动。

## 典型客户案例

* [**Fireworks AI**](https://www.alluxio.io/customer-stories/fireworks-ai-accelerates-inference-cold-starts-across-multiple-gpu-clouds-with-alluxio) — 跨 10+ GPU 云的推理冷启动消除：模型加载时间 20+ 分钟 → 每副本 2–3 分钟；出口成本降低 50%；每日服务约 2 PB 数据
* [**Dyna Robotics**](https://www.alluxio.io/customer-stories/dyna-robotics) — 每日 10,000–100,000 个 HDF5 文件的基础模型训练：30%+ 吞吐抖动消除；16 台 H100 节点构建 88 TB 分布式 SSD 缓存；多云 GPU 调度无需改写 pipeline
* [**Blackout Power Trading**](https://www.alluxio.io/customer-stories/blackout-power-trading) — 实时电力交易 ML feature store：推理查询提速 37–83 倍（3,727 ms → 45 ms）；在同一 15 分钟交易窗口内，模型规模从 5,000 扩展至 100,000+

## 后续步骤

* **了解工作原理：** [Alluxio 工作原理](/ee-ai-cn/how-alluxio-works.md) — 架构、缓存模型与数据流。
* **部署 Alluxio：** [入门指南](/ee-ai-cn/start.md) — Kubernetes（Operator）或 Linux 主机上的 Docker。