准确的电话号码和 WhatsApp 号码提供商。 如果您想要电子邮件营销活动列表或短信营销活动,那么您可以联系我们的团队。 电报: @latestdbs

应用程序是能够连续处

理数据的 Spark 应用程序,它允许重用代码进行批处理、根据历史数据连接流或对流数据运行即席查询。当应用程序长时间不间断运行时,这些流场景需要特别考虑。首先,您至少需要以下两件事: special 一个好的调度程序 并在 Spark 流应用程序中启用检查点 对于调度程序以及一般的 Spark,我们使用Kubernetes 上的 Spark。如果您需要将 Kubernetes 集群部署到云提供商,您可以使用Pipeline为您完成繁重的工作。默认情况下,Kubernetes 通过重新启动失败的 Pod 来处理失败的 Spark 执行器和驱动程序。虽然这对于一个人来说已经足够了,但是却还不够。为了使这种方法对故障更具弹性,必须首先启用 Spark 检查点。 executors driver driver 在谈论 Spark 检查点时,我们有必要区分两种不同的类型: 元数据检查点 数据检查点 这篇博文重点关注,因为这是从故障中恢复所需的检查点。

如果您对需要数据检查点

的场景感兴趣,您应该查看Spark 文档。 Metadata Metadata checkpointing 保存所需的元数据,因此,如果发生故障,应用程序可以从上次离开的地方继续。通常,检查点最常见的存储层是 HDFS 或 S3。对于 Kubernetes 和云中,您可能会使用 S3 来管理您自己的 HDFS 集群。另一方面,S3 很慢,如果您正在使用大型 Spark 流应用程序,您将面临与缓慢相关的瓶颈和问题。您的选择之一是使用 Amazon 上的 EFS、Azure 上的 AzureFile 或 Google 上的 GCE-PD。 better 在本博文中,我们将使用 AzureFiles,并使用最新的0.2.0版本的Pipeline展示如何在 Azure AKS 上使用 AzureFiles 进行 Spark 流式处理。 Azure 文件在云中提供完全托管的文件共享,可通过服务器消息块 (SMB) 协议进行访问,并且可由多个云 VM 同时使用。 事实证明,仅 Spark 检查点并不适用于当前的 Kubernetes Spark 阿根廷 WhatsApp 号码列表  实现。为了支持 Spark 检查点,我们需要进行以下更改: 驱动程序应该是Job,而不是Pod;很容易受到攻击,因为它们只调度到一个节点,因此如果一个节点发生故障,其相应的 pod 将永远不会被重新调度。

驱动程序应该绑定到

也需要一些配置才能在重新启动时绑定到正确的 IP。 我们使用上述所有更改构建了自己的Spark 版本,该版本可在上获取。我们将很快贡献这些更改。 PR 接下来,我们需要一个已正确配置以启用检查点的 Spark Streaming 应用程序。为了简单起见,我们将使用 Spark Streaming 示例NetworkWordCount的稍微修改版本。该应用程序将使用来自服务器的数据,为了使事情易于管理,我们将在本地计算机上运行。由于我们在 AKS 上运行 Kubernetes 集群,因此需要确保可以从外部访问主机上运行的服务器。我们将使用ngrok来实现这一点。 使用 Pipeline创 BQB 目录 建 AKS 集群后,我们需要更改和删除 storageclass Azure 创建的默认集群,因为它是 类型 AzureDisk ,而我们想要的是 AzureFile. 如果 KUBECONFIG 设置正确(例如AzureDisk 如果您适合用于存储,请随意跳过此阶段

Leave a comment

Your email address will not be published. Required fields are marked *