数据湖连接器
数据湖连接器 (connector) 使得 Trino 和 Spark 等计算引擎能够以结构化表格的形式查询数据。
Alluxio 支持的连接器包括:
配置各连接器的说明见各自的计算引擎文档。
已知限制
Iceberg
考虑到 Iceberg 通过文件管理元数据的特性,强烈建议避免缓存相应的元数据文件。如果元数据文件被持久化到缓存中,则在访问相关文件时可能会出现错误和/或警告。
确定元数据文件的位置后,通过缓存过滤功能将这些路径设置为 skipCache
。
写入 HDFS 时缓存数据
当使用 HDFS 作为 UFS 写入数据时,即使将写入类型配置为将数据持久化到缓存,数据在写入时也不会被缓存。只有在对新写入的数据进行冷读取时,数据才会持久化到 Alluxio 缓存中。请注意,使用 Trino 连接到 HDFS 时可观察到这种行为,但使用 Trino 连接到 S3 时则观察不到。
Last updated