Spark集群搭建与测试 - 图文 下载本文

注2:start-master.sh会首先尝试从spark-env.sh中获取spark_master_ip,获取到的话,就在该参数对应的节点上(可以是当前节点也可以不是当期节点)启动master进程;如果没有获取到的话,则会在当前节点上启动master进程:

最佳实践是:在master节点上执行start-master.sh.

注3:start-slaves.sh会在slaves 文件中指定的每个节点上分别调用start-slave.sh来启动worker进程,并尝试注册到特定的master上。这个master通过以下方式获取:首先尝试从spark-env.sh中获取spark_master_ip,获取到的话,该参数对应的节点(可以是当前节点也可以不是当期节点)就是master节点;如果没有获取到的话,则会视当前节点为master节点。若该master节点上的master进程没有启动,这些worker节点上的worker进程会不断尝试注册到master上:

最佳实践是:在master节点上start-slaves.sh.

注4:start-slave.sh:该命令可以动态启动worker节点并注册到到master上,这样当我们已经启动了spark集群后,当后续有新的节点可用时,无需stop整个集群,只需要在新的可用节点上执行该命令就可以动态启动并注册到master上。需要注意的是,当使用该命令时,必须在命令行指定master:

15. Spark为我们提供了spark-shell这个交互式脚本,它是我们学习spark的一个简

单有效的途径。需要注意的是,在启动spark-shell时,若你没有指定参数--master,

spark-shell是运行在本地单机模式的。 a. Spark-shell单机模式:

通过webUI的方式查看系统信息:http://master:4040 Environment信息:

Executors信息: