管理缓存
有效管理 Alluxio 中缓存的数据是实现最大性能和资源效率的关键。本节全面概述了 Alluxio 中数据缓存的生命周期,从将数据加载到缓存到管理其存在和最终删除。
数据缓存生命周期
我们可以将缓存数据的生命周期分为三个主要阶段:
加载数据:数据最初是如何进入缓存的。
管理数据:如何控制缓存的内容、使用的空间以及缓存的时间。
删除数据:数据如何从缓存中被驱逐或删除。
将数据加载到缓存中
本指南涵盖了将数据加载到 Alluxio 的两种主要方式。
被动缓存:默认行为,即数据在应用程序首次读取时自动缓存。
主动预加载:使用分布式
job load
命令在需要数据之前主动将数据加载到缓存中。这对于为性能敏感的工作负载预热缓存是理想的选择。
了解更多关于加载数据...
管理缓存中的数据
一旦数据进入缓存,Alluxio 提供了一套强大的工具来控制其生命周期和资源消耗。
缓存过滤策略:根据文件路径定义规则以选择性地缓存或忽略文件。这对于管理可变数据和优化缓存空间至关重要。
缓存配额:对特定目录树可以消耗的缓存空间量设置限制,这对于多租户和资源隔离至关重要。
生存时间 (TTL):在定义的时间段后自动过期和驱逐缓存数据,确保陈旧或临时数据被清理。
驱逐优先级:为不同的数据集分配优先级,以影响在缓存已满时首先驱逐哪些数据,从而保护关键数据不被删除。
了解更多关于管理数据...
从缓存中删除数据
本指南详细介绍了从 Alluxio 缓存中删除数据的不同方式,可以是自动的也可以是手动的。
自动驱逐:当缓存达到其容量时,Alluxio 根据 LRU(最近最少使用)等策略删除数据的标准过程。
手动驱逐:使用
job free
命令强制从缓存中删除特定文件或目录,让您直接控制缓存内容。陈旧缓存清理:一种专门的管理工具,用于查找和删除在集群拓扑更改后可能出现的错位或冗余数据。
了解更多关于删除数据...
Last updated