Alluxio
ProductsLanguageHome
DA-3.5 (stable)
DA-3.5 (stable)
  • 概览
  • 部署Alluxio
    • 资源需求和兼容性
    • 在Kubernetes上安装Alluxio
    • 监控和指标
    • Alluxio 集群操作
    • 系统健康检查和快速恢复
    • 采集集群信息
  • 架构
    • Alluxio 命名空间和底层文件系统命名空间
    • I/O弹性
    • worker管理与一致性哈希
  • 底层存储系统
    • Amazon AWS S3
    • HDFS
    • 腾讯 COS
  • 计算集成
    • 在 K8s 上运行 Trino
    • 在 K8s 上运行 Spark
    • 数据湖连接器
  • Client APIs
    • S3 API
    • Java HDFS 兼容 API
  • 缓存操作
    • 缓存预加载
    • 缓存过滤
    • 缓存驱逐
      • TTL (有效时间)规则
      • 优先级规则
      • 通过命令行释放缓存空间
  • 资源管理
    • 基于目录的集群配额
    • UFS 带宽限制
  • 性能优化
    • 通过副本提高读取吞吐量
    • 读取大文件
    • 元数据列表
    • 数据预拉取
  • 安全
    • TLS 支持
    • Apache Ranger 集成
  • 参考
    • 用户命令行接口
    • 指标
    • S3 API Usage
    • 第三方证书
  • 版本发布说明
Powered by GitBook
On this page
  • 已知限制
  • Iceberg
  1. 计算集成

数据湖连接器

Last updated 1 month ago

数据湖连接器 (connector) 使得 Trino 和 Spark 等计算引擎能够以结构化表格的形式查询数据。

Alluxio 支持的连接器包括:

配置各连接器的说明见各自的计算引擎文档。

已知限制

Iceberg

考虑到 Iceberg 通过文件管理元数据的特性,强烈建议避免缓存相应的元数据文件。如果元数据文件被持久化到缓存中,则在访问相关文件时可能会出现错误和/或警告。

确定元数据文件的位置后,通过将这些路径设置为 skipCache。

写入 HDFS 时缓存数据

当使用 HDFS 作为 UFS 写入数据时,即使将写入类型配置为将数据持久化到缓存,数据在写入时也不会被缓存。只有在对新写入的数据进行冷读取时,数据才会持久化到 Alluxio 缓存中。请注意,使用 Trino 连接到 HDFS 时可观察到这种行为,但使用 Trino 连接到 S3 时则观察不到。

Apache Hive
Apache Iceberg
Delta Lake
缓存过滤功能
Trino