a. 修改slaves文件,(若没有slaves文件可以cpslaves.template slaves创建),
添加worker节点的Hostname,修改后内容如下:
b. 配置spark-env.sh,(若没有该文件可以cp spark-env.sh.template spark-env.sh创建),添加如下内容:
export JAVA_HOME=/usr/lib/java/jdk1.8.0_60 export SCALA_HOME=/usr/lib/scala/scala-2.10.4 export HADOOP_HOME=/usr/local/hadoop/hadoop-2.6.0
export HADOOP_CONF_DIR=/usr/local/hadoop/hadoop-2.6.0/etc/hadoop export SPARK_MASTER_IP=master export SPARK_WORKER_MEMORY=1g 修改后的内容如下:
更详细的配置说明,请参考官方文档:
http://spark.apache.org/docs/latest/spark-standalone.html#cluster-launch-scripts c. 可选,配置spark-defaults.sh:
14. 启动并验证spark集群:
Spark只是一个计算框架,并不提供文件系统功能,故我们需要首先启动文件系统hdfs;在standalone模式下,我们并不需要启动yarn功能,故不需要启动yarn.
a. 用start-dfs.sh启动hdfs,参考step10.
b. 在hadoop集群启动成功的基础上,启动spark集群,常见的做法是在master节点
上start-all.sh:
c. 使用jps在master和worker节点上验证spark集群是否正确启动:
d. 通过webui查看spark集群是否启动成功:http://master:8080
e. 启动spark的historyserver:start-history-server.sh
Jps可见,historyserver没能启动成功。仔细观察日志可见,指定的日志目录不存在: