我们描述了如何配置和启用将

事件日志收集到从那时起,我们向Pipeline添加了更多受支持的提供程序,并扩大了可用选项,以轻松将 Spark 事件日志捕获到 Amazon AWS S3、Microsoft Azure WASB 和 Google Cloud Storage。让我们看看这是如何工作的。 spark-submit Spark History Server 您可以直接使用我们的Helm 部署图表。 我们有以下伞图: Spark 部署了运行作业所需的所有后台基础设施:,并且应该启用(默认情况下它们不是)。 spark-submit Spark Resource Staging Server Shuffle Service Spark History Server zeppelin-spark 部署了上述所有内容,再加上 Zeppelin 服务器部署和外部可访问的服务。 如果您想进行实验,可以在此处找到一些部署示例。 幕后花絮 注意:以下步骤是由Pipeline自动执行的,但列出这些步骤是为了帮助您了解幕后发生的事情,并作为全面的指南,以防您想在自己的环境中重现它们而不使用 Pipeline 。

我们已经在之前的博客中

彻底介绍了这个主题 . 构建图像 您需要一个包含每个云存储选项的 Hadoop 文件系统驱动程序的映像: AWS Spark 的发行版中默认包含库 Azure 可以使用配置文件包含 SDK hadoop-2.7 Google 连接器,必须作为模块的依赖项包含在内。 hadoop-cloud 亚美尼亚 WhatsApp 号码列表 目前,我们基于Spark 的 k8s 分支构建 Spark 镜像,因为它的所有功能尚未移植到 master 分支。您需要一些补丁才能包含 Google Connector,让我们看看这些补丁是什么: SPARK-7481 引入了该模块,该模块在 Spark k8s 中不存在,必须从 master 分支中精心挑选。 spark-hadoop-cloud 添加 hadoop-cloud 配置文件依赖项。

WhatsApp 手机号码列表

这是一个必要的修复,因为默认情况下

该模块不包含在 docker 捆绑包中。 spark-hadoop-cloud 将 gcs 连接器依赖项添加到 hadoop-cloud 模块。这包括模块中的依赖关系。它还 BQB 目录 将 docker 包中的 Guava 更新为较新的版本,因为当前版本相当旧。 Google Connector spark-hadoop-cloud 一旦这些功能移植到主分支,我们将提供一个补丁,其中包含一个可选的 Google 连接器,这样我们就可以将其用作 Spark 映像的基础。 3. 访问不同云存储 通过提供不同的访问密钥(这适用于所有云提供商)或基于策略/规则来授予访问权限。让我们看看在每个云提供商上进行设置需要什么: 可以使用策略来访问 S3 存储。例如,您可以将以下策略添加到您的实例配置文件中: 请记住,必须事先创建这些存储桶。Pipeline也可以自动化这些步骤,利用一个特殊的操作符在任何云提供商上自动创建存储桶。

About the Author

Leave a Reply

Your email address will not be published. Required fields are marked *

You may also like these