Spark集群搭建
LiuSw Lv6

Spark集群搭建

在安装spark之前,需要安装hadoop集群环境

集群列表

服务器 地址 角色 备注
hadoop1 192.168.11.81 master 32G 12C 800G
hadoop2 192.168.11.82 slaves 32G 12C 800G
hadoop3 192.168.11.83 slaves 32G 12C 800G

一.基础环境设置

关闭防火墙

1
2
systemctl stop firewalld
systemctl disable firewalld

关闭selinux

1
2
sed -i 's/SELINUX=enforcing/SELINUX=disabled/' /etc/selinux/config
setenforce 0

添加hosts

1
2
3
4
vi /etc/hosts
192.168.11.81 hadoop1
192.168.11.82 hadoop2
192.168.11.83 hadoop3

二.安装spark集群

下载spark包

1
2
3
https://archive.apache.org/dist/spark
# 安装包地址
https://archive.apache.org/dist/spark/spark-2.4.2/spark-2.4.2-bin-hadoop2.6.tgz

上传解压spark安装包

1
tar -xzvf spark-2.4.2-bin-hadoop2.6.tgz -C /data

配置环境变量

1
2
3
4
5
6
7
cat >>/etc/profile <<EOF
# spark
export SPARK_HOME=/data/spark-2.4.2
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin
EOF

source /etc/profile

配置spark参数

配置文件放在$SPARK_HOME/conf下

1
2
3
4
5
6
7
8
9
10
11
12
13
cd $SPARK_HOME/conf
cp spark-env.sh.template spark-env.sh
vi spark-env.sh
# 添加
# spark
export JAVA_HOME=/jdk1.8.0_271
export SCALA_HOME=/scala-2.12.4/
export HADOOP_HOME=/data/hadoop-2.6.4
export HADOOP_CONF_DIR=/data/hadoop-2.6.4/etc/hadoop
SPARK_MASTER_IP=hadoop1
SPARK_LOCAL_DIRS=/data/spark-2.4.2
SPARK_DRIVER_MEMORY=1G
PYSPARK_PYTHON=/usr/bin/python3.6

配置工作节点

1
2
3
4
5
cp slaves.template slaves
vi slaves
# 添加
hadoop2
hadoop3

注:以上配置需要复制到其它节点中

启动服务

启动hadoop后 在启动spark集群

1
2
3
cd $SPARK_HOME/sbin/
./start-all.sh
./start-history-server.sh

关闭服务

1
2
3
cd $SPARK_HOME/sbin/
./stop-all.sh
./stop-history-server.sh

四.web可视化

1
2
# 资源管理
http://192.168.11.81:8080/

五.安装scala

spark既可以使用Scala作为开发语言,也可以使用python作为开发语言。

spark中已经默认带有scala,如果没有或者要安装其他版本可以下载安装包安装。

下载scala安装包

1
https://www.scala-lang.org/download/

上传解压scala安装包

1
tar -zxvf scala-2.12.4.tgz -C /

添加环境变量

1
2
3
4
5
6
7
cat >>/etc/profile <<EOF
# scala
export SCALA_HOME=/scala-2.12.4/
export PATH=$PATH:$SCALA_HOME/bin
EOF

source /etc/profile

注:其它节点中也要配置安装scala

测试是否安装成功

1
2
[root@hadoop1 pkg]# scala -version
Scala code runner version 2.12.4 -- Copyright 2002-2017, LAMP/EPFL and Lightbend, Inc.

启动Spark shell界面

1
2
3
spark-shell --master spark://hadoop1:7077
# 服务器默认安装python2,若需要python3 自行安装
pyspark --master spark://hadoop1:7077
 评论