Alluxio
ProductsLanguageHome
DA-3.2
DA-3.2
  • 概览
  • 部署Alluxio
    • 资源需求和兼容性
    • 在Kubernetes上安装Alluxio
    • 监控和指标
    • Alluxio 集群操作
    • 系统健康检查和快速恢复
    • 采集集群信息
  • 底层存储系统
    • 存储集成概述
    • Amazon AWS S3
    • HDFS
  • 计算集成
    • 在 K8s 上运行 Trino
    • 在 K8s 上运行 Spark
    • 数据湖连接器
  • Client APIs
    • S3 API
    • Java HDFS 兼容 API
  • 功能
    • Alluxio 命名空间和底层文件系统命名空间
    • 缓存预加载
    • 缓存驱逐
    • 缓存过滤
    • 缓存释放
    • I/O弹性
  • 安全
    • TLS 支持
    • Apache Ranger 集成
  • 参考
    • 用户命令行接口
    • S3 API Usage
    • 第三方证书
  • 版本发布说明
Powered by GitBook
On this page
  • 已知限制
  • Iceberg
  1. 计算集成

数据湖连接器

Last updated 1 month ago

数据湖连接器 (connector) 使得 Trino 和 Spark 等计算引擎能够以结构化表格的形式查询数据。

Alluxio 支持的连接器包括:

配置各连接器的说明见各自的计算引擎文档。

已知限制

Iceberg

考虑到 Iceberg 通过文件管理元数据的特性,强烈建议避免缓存相应的元数据文件。如果元数据文件被持久化到缓存中,则在访问相关文件时可能会出现错误和/或警告。

确定元数据文件的位置后,通过将这些路径设置为 skipCache。

写入 HDFS 时缓存数据

当使用 HDFS 作为 UFS 写入数据时,即使将写入类型配置为将数据持久化到缓存,数据在写入时也不会被缓存。只有在对新写入的数据进行冷读取时,数据才会持久化到 Alluxio 缓存中。请注意,使用 Trino 连接到 HDFS 时可观察到这种行为,但使用 Trino 连接到 S3 时则观察不到。

Apache Hive
Apache Iceberg
Delta Lake
缓存过滤功能
Trino