Spark集群搭建

在安装spark之前，需要安装hadoop集群环境

集群列表

服务器	地址	角色	备注
hadoop1	192.168.11.81	master	32G 12C 800G
hadoop2	192.168.11.82	slaves	32G 12C 800G
hadoop3	192.168.11.83	slaves	32G 12C 800G

一.基础环境设置

关闭防火墙

1 2	systemctl stop firewalld systemctl disable firewalld

关闭selinux

1 2	sed -i 's/SELINUX=enforcing/SELINUX=disabled/' /etc/selinux/config setenforce 0

添加hosts

vi /etc/hosts
192.168.11.81 hadoop1
192.168.11.82 hadoop2
192.168.11.83 hadoop3

二.安装spark集群

下载spark包

1
2
3

https://archive.apache.org/dist/spark
# 安装包地址
https://archive.apache.org/dist/spark/spark-2.4.2/spark-2.4.2-bin-hadoop2.6.tgz

上传解压spark安装包

1	tar -xzvf spark-2.4.2-bin-hadoop2.6.tgz -C /data

配置环境变量

cat >>/etc/profile <<EOF
# spark
export SPARK_HOME=/data/spark-2.4.2
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin
EOF

source /etc/profile

配置spark参数

配置文件放在$SPARK_HOME/conf下

cd $SPARK_HOME/conf
cp spark-env.sh.template spark-env.sh
vi spark-env.sh
# 添加
# spark
export JAVA_HOME=/jdk1.8.0_271
export SCALA_HOME=/scala-2.12.4/
export HADOOP_HOME=/data/hadoop-2.6.4
export HADOOP_CONF_DIR=/data/hadoop-2.6.4/etc/hadoop
SPARK_MASTER_IP=hadoop1
SPARK_LOCAL_DIRS=/data/spark-2.4.2
SPARK_DRIVER_MEMORY=1G
PYSPARK_PYTHON=/usr/bin/python3.6

配置工作节点

cp slaves.template slaves
vi slaves
# 添加
hadoop2
hadoop3

注:以上配置需要复制到其它节点中

启动服务

启动hadoop后在启动spark集群

1
2
3

cd $SPARK_HOME/sbin/
./start-all.sh
./start-history-server.sh

关闭服务

1
2
3

cd $SPARK_HOME/sbin/
./stop-all.sh
./stop-history-server.sh

四.web可视化

1 2	# 资源管理 http://192.168.11.81:8080/

五.安装scala

spark既可以使用Scala作为开发语言，也可以使用python作为开发语言。

spark中已经默认带有scala，如果没有或者要安装其他版本可以下载安装包安装。

下载scala安装包

1	https://www.scala-lang.org/download/

上传解压scala安装包

1	tar -zxvf scala-2.12.4.tgz -C /

添加环境变量

cat >>/etc/profile <<EOF
# scala
export SCALA_HOME=/scala-2.12.4/
export PATH=$PATH:$SCALA_HOME/bin
EOF

source /etc/profile

注:其它节点中也要配置安装scala

测试是否安装成功

1 2	[root@hadoop1 pkg]# scala -version Scala code runner version 2.12.4 -- Copyright 2002-2017, LAMP/EPFL and Lightbend, Inc.

启动Spark shell界面

1
2
3

spark-shell --master spark://hadoop1:7077
# 服务器默认安装python2，若需要python3 自行安装
pyspark --master spark://hadoop1:7077