CDH之CDK以及CDS部署

老牧童 • 2025-02-26 09:20 • 未分类

CDH之CDK以及CDS部署1 CDK 部署 CDK 指的是 CDH Kafka CDH 默认的 Parcel 包裹中是没有 Kafka 服务包裹的需要下载 1 1 确定 CDH 的版本以及下载由于我的 CDH 的环境是 CDH5 12 0 故我根据 Cloudera 的官网推荐选择 CDK2 2

大家好，欢迎来到IT知识分享网。

1.CDK部署

CDK指的是CDH+Kafka,CDH默认的Parcel包裹中是没有Kafka服务包裹的，需要下载。

1.1 确定CDH的版本以及下载

由于我的CDH的环境是CDH5.12.0，故我根据Cloudera的官网推荐选择CDK2.2.0

1.2 配置Kafka Pacel下载源

1.3 CM部署Kafka服务

第一步：添加Kafka的Parcel下载源地址

第二步：依次点击 Dowanload 》Distribute》Activate,到这儿就已经将CDK集成到了我们的CDH

第三步：部署，只选择部署三台Brocker，设置Kafka在zookeeper的地址为/kafka

第四步：踩坑，部分Broker的节点无法启动异常解决
由于CDH配置的Kafka的JVM Heap Size太小导致了，部分Kafka起不来，故重新设置然后启动

1.4 Kafka服务测试

Kafka安装包的地址：
/opt/cloudera/parcels/KAFKA/lib/kafka

2.CDS部署

CDS指的是CDH+Spark，默认的CDH集成的是Spark1.6，这并不满足我们现有的需求，故需安装CDS。

注意：生产中我们部署在CDH中的Spark是自己编译的Spark2.x

2.1版本选择

如下图，根据我的CDH版本，我选择CDS2.4版本,该版本的Spark是基于Apache Spark2.4.0。

2.2添加Spark2的Parcel

注意若机器内存不够，会导致系统主动去kill 进程，我们需要主动关闭一些不需要的服务。

2.3添加Spark2服务并部署

第一步：配置Spark2的Parcels地址

第二步：依次点击 Dowanload 》Distribute》Activate,到这儿就已经将CDS集成到了我们的CDH

第三步：部署,部署后该重启的需要重启。

2.4 Spark2 on Yarn 作业测试

Spark2的部署目录：
/opt/cloudera/parcels/SPARK2/lib/spark2/bin/

由于我们部署了GateWay，故我们可以直接使用Spark2的脚本，脚本位置：/usr/bin/spark2-submit

(踩坑)，yarn的容器的能分配的最大内存必须要比Spark的Executor大，需改如下配置：

yarn.nodemanager.resource.memory-mb 至少为2G，
yarn.scheduler.maximum-allocation-mb

至少2G

注意有趣HDFS的权限问题，故我们提交Spark的任务用hdfs用户

免责声明：本站所有文章内容,图片，视频等均是来源于用户投稿和互联网及文摘转载整编而成，不代表本站观点，不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益，请在线联系站长,一经查实,本站将立刻删除。本文来自网络,若有侵权，请联系删除，如若转载，请注明出处：https://haidsoft.com/171725.html

赞 (0)

0

HTML颜色名称及其对应的十六进制代码

上一篇 2025-02-26 09:20

电脑主板各芯片的功能及解释

下一篇 2025-02-26 09:25

发表回复

关注微信