数据湖连接器

数据湖连接器 (connector) 使得 Trino 和 Spark 等计算引擎能够以结构化表格的形式查询数据。

Alluxio 支持的连接器包括:

配置各连接器的说明见各自的计算引擎文档。

已知限制

Iceberg

考虑到 Iceberg 通过文件管理元数据的特性,强烈建议避免缓存相应的元数据文件。如果元数据文件被持久化到缓存中,则在访问相关文件时可能会出现错误和/或警告。

确定元数据文件的位置后,通过缓存过滤功能将这些路径设置为 skipCache

写入 HDFS 时缓存数据

当使用 HDFS 作为 UFS 写入数据时,即使将写入类型配置为将数据持久化到缓存,数据在写入时也不会被缓存。只有在对新写入的数据进行冷读取时,数据才会持久化到 Alluxio 缓存中。请注意,使用 Trino 连接到 HDFS 时可观察到这种行为,但使用 Trino 连接到 S3 时则观察不到。

Last updated