# 版本发布说明

### Alluxio Enterprise AI 3.9

Alluxio AI 3.9 将 Alluxio 从以读为中心的数据缓存升级为完整的 AI 读写数据加速平台，在提升性能、可靠性和运维成熟度的同时，为整个 AI 工作流解锁了新的使用场景。

本次发布围绕两大产品方向持续演进：

* **迈向高性能读写缓存系统** —— Alluxio 现已支持写密集型工作负载，提供兼容 POSIX 的写缓存与 S3 Multipart Upload 支持，可用于模型 checkpoint 以及数据预处理。
* **强化 AI 数据引擎** —— 原生 RDMA 数据传输、零拷贝与 Worker I/O 优化，以及更强的可靠性改进，进一步增强了 Alluxio 对高要求 AI 基础设施的支撑能力。

#### 新功能

**MLOps Workspace —— FUSE Full POSIX Workspace**

{% hint style="warning" %}
Experimental since AI 3.9
{% endhint %}

Alluxio AI 3.9 引入 FUSE Full POSIX Workspace，使 ML 工程师能够直接在由 Alluxio 支持的 FUSE 挂载上运行交互式工作负载，并获得完整的 POSIX 语义。相较于基础版 FUSE 写入优化，该模式支持随机写入、覆盖写、截断、rename、符号链接等标准 POSIX 操作。

基于 FDB 的元数据后端支持多节点访问同一数据集，数据可存储在 Worker NVMe 以获得低延迟，也可存储在 UFS PageStore 以获得更高持久性。典型工作负载包括 `git clone`、`vim`、`pip install`、持续日志写入、数据预处理，以及无需修改代码即可迁移传统 POSIX 应用。在验证测试中，Workspace 顺序写入峰值吞吐达到 **8.99 GB/s**，热缓存读取峰值吞吐达到 **8.01 GB/s**。

配置和使用详情请参阅 [FUSE Full POSIX Workspace](/ee-ai-cn/performance/fuse-workspace.md)。

**模型训练 Checkpoint —— S3 与 FUSE**

{% hint style="warning" %}
Experimental since AI 3.9
{% endhint %}

Alluxio AI 3.9 通过 S3 和 FUSE 两种接口，为模型训练新增高性能 checkpoint 支持。

S3 写入缓存现已支持标准 Multipart Upload（MPU），可处理数 GB 级别的 checkpoint 文件。此外，checkpoint 数据会先写入本地缓存，再异步持久化到对象存储，从而降低应用可感知的 checkpoint 延迟，并尽量减少 checkpoint 期间 GPU 的空闲时间。验证测试显示，单 Worker checkpoint 写入吞吐最高可达 **10.20 GB/s**。

配置和使用详情请参阅 [S3 API 写入优化](/ee-ai-cn/performance/s3-write-cache.md) 和 [FUSE 写入优化](/ee-ai-cn/performance/fuse-write-cache.md)。

**原生 RDMA 数据传输**

{% hint style="warning" %}
Experimental since AI 3.9
{% endhint %}

Alluxio AI 3.9 为读 I/O 增加了原生 RDMA（Remote Direct Memory Access）传输能力，可绕过内核网络栈，从而提升模型加载、训练数据读取和推理服务等数据访问场景的吞吐与延迟表现。

在单节点测试中，RDMA 在 **200Gbps InfiniBand** 上达到 **23.2 GB/s**，在 **400Gbps InfiniBand** 上达到 **49.5 GB/s**。在由 3 个 Worker 和 3 个客户端组成、运行于 **200Gbps InfiniBand** 节点上的集群中，RDMA 总吞吐扩展至 **62.5 GB/s**。小读延迟方面，200G 环境下 4 KB 读取的 P99 达到 **64 µs**，400G 环境下 P99.9 约为 **59 µs**。

本次发布中的 RDMA 支持仅适用于读 I/O。写缓存的写路径仍继续使用标准 TCP 传输。

配置和使用详情请参阅 [RDMA 网络](/ee-ai-cn/performance/rdma-networking.md)。

#### 功能增强

**从访问日志洞察缓存使用情况**

Alluxio AI 3.9 引入缓存可观测性框架，除时序指标外，还提供细粒度访问日志。

这有助于进行缓存容量规划、按业务单元审计使用情况，以及开展成本分摊分析。该框架新增了文件级冷热数据分布可视性、按工作负载划分的访问模式分析，以及动态配置、基于 CLI 的日志管理、时间窗口去重和采样率调优等运维控制能力。

配置和使用详情请参阅 [访问日志](/ee-ai-cn/administration/audit-access-logs/access-log.md)。

**集群运维增强**

Alluxio AI 3.9 同时增强了大规模部署场景下的集群运维能力。

* **面向多租户 Kubernetes 的可恢复数据隔离** —— 基于 CSI 的子目录隔离替代了脆弱的 `volumeMounts.subPath`，且挂载数据可在 FUSE Pod 重启后保留。
* **独立的 Worker 服务绑定** —— Worker RPC、REST、Web、数据和 RDMA 服务可分别绑定到不同的网卡和设备。
* **Job Service 可靠性提升** —— 僵尸作业对账、稳定的 Job ID 管理，以及更强的基于 etcd 的调度器状态处理提升了运维稳健性。
* **写缓存后台运维任务** —— 异步持久化扫描、副本检查、孤儿对象清理、失效锁清理以及临时文件提升均已实现自动化。
* **FUSE 与部署改进** —— 新增 HDFS 3.4 兼容性、NAS UFS 改进、FUSE 日志轮转以及集群诊断能力，提升整体可运维性。


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://documentation.alluxio.io/ee-ai-cn/release-notes.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
