Azure 数据湖存储
本指南介绍如何配置Alluxio,使其与底层存储系统 Azure Data Lake Storage Gen1 一起运行。
部署条件
电脑上应已安装好Alluxio程序。如果没有安装,可编译Alluxio源代码, 或直接下载已编译好的Alluxio程序.
在将 Azure 数据湖存储与 Alluxio 一起运行前,请在 Azure 帐户中创建一个新的 Data Lake Storage 或使用现有的 Data Lake Storage。这里还应指定需使用的 directory(目录),创建一个新的 directory 或使用现有 directory 均可。此外,还需为存储帐户设置服务到服务验证。本指南中的 Azure 存储帐户名为 <AZURE_ACCOUNT>
,该存储帐户中的 directory 名为 <AZURE_DIRECTORY>
。 要了解有关 Azure 存储帐户的更多信息,请点击此处.
基本设置
根挂载
如果要使用 Azure Data Lake Storage 作为 Alluxio 根挂载点的 UFS,则需要通过修改 conf/alluxio-site.properties
来配置Alluxio,使其可访问底层存储系统。如果该配置文件不存在,可通过模板创建。
修改 conf/alluxio-site.properties
来指定UFS 地址,需包括:
通过在 conf/alluxio-site.properties
中添加以下属性,来指定用于根挂载点的 Azure 帐户的 Azure AD Application 的应用ID、身份验证密钥和租户 ID:
有关如何获取应用 ID 和身份验证密钥(也称为客户端密钥)的说明,请参见 Get application ID and authentication key。
有关如何获取租户ID 的说明,请参见 Get tenant ID.
嵌套挂载
Azure Data Lake 存储位置可以挂载在 Alluxio 命名空间中的嵌套目录下,以便统一访问多个底层存储系统。可使用 Alluxio 的 Command Line Interface(命令行) 来进行挂载。
在完成这些修改之后,Alluxio 已经配置完毕,可以与底层存储 Azure Data Lake 一起在本地运行。
将 Alluxio 与 Data Lake Storage 一起在本地运行
在本地启动Alluxio,检查是否一切运行正常。
该命令会启动一个 Alluxio master 和一个 Alluxio worker。可通过 http://localhost:19999 查看 master UI。
运行一个简单的示例程序:
访问 directory <AZURE_DIRECTORY>
以验证 Alluxio 创建的文件和目录是否存在。就本次测试而言,将看到如下文件:
要终止Alluxio, 可运行以下命令:
Last updated