Alluxio
ProductsLanguageHome
  • Alluxio概览
  • 用户指南
    • 快速上手指南
    • 架构
    • FAQ
    • 作业服务器
    • 应用场景
  • 核心功能
    • 缓存
    • 统一命名空间
  • 部署 Alluxio
    • 在Kubernetes上部署Alluxio
    • 本地运行Alluxio
    • 在集群上独立运行Alluxio
    • 在Docker上运行Alluxio
    • 在具有HA的群集上部署Alluxio
    • 使用Docker部署AlluxioFuse加速深度学习训练(试验)
    • 基本要求
  • 云源生
    • Tencent EMR
  • 计算应用
    • Apache Spark
    • Presto
    • Spark on Kubernetes
    • Apache Flink
    • Apache Hadoop MapReduce
    • Presto on Iceberg (Experimental)
    • Trino
    • Apache Hive
    • 深度学习框架
    • Tensorflow
  • 底层存储系统
    • Alluxio集成Amazon AWS S3作为底层存储
    • Alluxio集成GCS作为底层存储
    • Alluxio集成Azure Blob Store作为底层存储
    • Azure Data Lake Storage Gen2
    • Azure 数据湖存储
    • Alluxio集成HDFS作为底层存储
    • Alluxio集成COS作为底层存储
    • Alluxio集成COSN作为底层存储
    • Alluxio集成Ceph Object Storage作为底层存储
    • Alluxio集成NFS作为底层存储
    • Alluxio集成Kodo作为底层存储
    • Alluxio集成Swift作为底层存储
    • Alluxio集成WEB作为底层存储
    • Alluxio集成Minio作为底层存储
    • 阿里云对象存储服务
    • Alluxio集成Ozone作为底层存储
    • Alluxio集成CephFS作为底层存储
  • 安全设置
    • 安全性
  • 运维指南
    • 配置项设置
    • 命令行接口
    • 管理员命令行接口
    • Web界面
    • 日志
    • 度量指标系统
    • 远程记录日志
  • 管理
    • 升级
    • 异常诊断与调试
  • APIs
    • Filesystem API
    • S3 Client
    • POSIX API
    • REST API
    • Python Client
    • 兼容Hadoop的Java
    • Go 客户端
  • 开发者资源
    • 编译Alluxio源代码
    • 开发指南
    • 代码规范
    • 如何开发单元测试
    • 文档规范
  • 参考
    • 配置项列表
    • List of Metrics
  • REST API
    • Master REST API
    • Worker REST API
    • Proxy REST API
    • Job REST API
  • Javadoc
Powered by GitBook
On this page
  • 应用场景1:加速云上分析和AI 作业
  • 应用场景2:加速本地对象存储的分析和AI作业
  • 应用场景3:"零拷贝"混合云迁移
  • 应用场景4:云上数据的混合云存储网关
  • 应用场景5:支持跨数据中心的数据访问
  1. 用户指南

应用场景

Last updated 6 months ago

世界上许多头部企业都在生产中部署Alluxio,以从数据中获取价值。我们在 页面中列出了部分企业。下面我们将介绍一些最常见的 Alluxio 应用场景。

应用场景1:加速云上分析和AI 作业

许多企业都在公有云(AWS S3、Google Cloud 或 Microsoft Azure)对象存储上运行分析和机器学习负载(Spark、Presto、Hive、Tensorflow 等)。

虽然云对象存储通常性价比更高,易于使用和扩展,但也存在一些挑战:

  • 性能不稳定,难以实现SLA一致

  • 元数据操作昂贵,拖慢负载运行

  • 自带缓存对于短暂运行的集群无效

Alluxio 通过提供智能多级缓存和元数据管理来解决这些挑战。在计算集群上部署 Alluxio 有助于:

  • 实现分析引擎的性能稳定

  • 降低AI训练时间和成本

  • 去除重复存储带来的成本

  • 对于短暂运行的工作负载实现集群外缓存

应用场景2:加速本地对象存储的分析和AI作业

在本地部署的对象存储上运行数据驱动型应用会带来以下挑战:

  • 分析和AI负载性能差

  • 缺乏对主流框架的原生支持

  • 元数据操作成本高昂且性能低下

Alluxio 通过提供缓存和 API 转换功能来解决这些问题。在应用端部署 Alluxio 带来以下益处:

  • 分析和AI负载性能提升

  • 可灵活实现存储隔离

  • 支持多个API,不影响终端用户体验

  • 降低总存储成本

应用场景3:"零拷贝"混合云迁移

随着越来越多的企业迁移上云,其中一种常见的过渡做法是利用云上的计算资源,同时从本地数据源读取数据。但是,这种混合架构带来了下列问题:

  • 远程读取数据速度慢且不稳定

  • 将数据拷贝到云存储耗时,复杂且易出错

  • 合规性和数据主权相关规定不允许将数据拷贝上云

Alluxio提供"零拷贝"上云功能,使得云上的计算引擎能够访问本地数据,而无需持久化的数据复制或定期同步。这一功能可带来以下益处:

  • 性能等同于数据位于云计算集群上

  • 不影响终端用户体验和安全模式

  • 普通数据访问层采用基于访问和策略的数据移动

  • 可利用弹性云计算资源,降低成本

应用场景4:云上数据的混合云存储网关

另一种混合云架构是从私有数据中心访问云存储。使用这种架构通常会导致以下问题:

  • 没有云存储和本地存储的统一视图

  • 网络流量成本过高

  • 无法使用本地计算引擎访问云上数据

  • 运行分析和AI作业时性能不佳

Alluxio 作为混合云存储网关,可利用本地计算处理云上数据, 从而解决这些问题。当Alluxio与本地计算一同部署时,Alluxio可管理计算集群的存储并将应用所需数据本地化,从而实现:

  • 通过智能分布式缓存提高读写性能

  • 减少数据复制,从而节约网络成本

  • 提供灵活API接口和云存储安全模式,不影响终端用户体验

应用场景5:支持跨数据中心的数据访问

许多企业出于性能、安全或资源隔离的目的,建立了独立于主数据集群的卫星计算集群。由于这些卫星集群需要通过主集群远程访问数据,有一定难度,这是因为:

  • 跨数据中心的副本需要手动操作,非常耗时

  • 数据拷贝导致不必要的高昂网络成本

  • 在过载的存储集群上进行复制作业严重影响现有负载的性能

Alluxio 可以作为一个数据逻辑副本,部署在卫星集群中的计算节点上,并配置为连接到主数据集群,因此:

  • 无需跨数据中心维护冗余的副本

  • 减少复杂的数据同步

  • 与远程访问数据相比实现性能提升

  • 实现跨业务部门的自主数据架构

本应用场景案例参见 (美国艺电)。

本应用场景案例参见 (新加坡星展银行)。

本应用场景案例参见 (沃尔玛)。

本应用场景案例参见 (康卡斯特)。

Electronic Arts
DBS
Walmart
Comcast
Powered-By