spark完全分布式 如何搭建和使用spark完全分布式

spark

本文是spark完全分布式集群搭建使用,国赛前夕的准备内容。

关键字: spark完全分布式

本文关键字:spark完全分布式,搭建
Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是——Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。
1. 软件准备

  • scala-2.10.6.tgz
  • spark-1.6.3-bin-hadoop2.6.tgz
  1. Scala安装

1)master机器

(1)下载 scala-2.10.6.tgz, 解压到 /opt目录下,即: /opt/scala-2.10.6。

(2)修改 scala-2.10.6.tgz目录所属用户和用户组。

sudo chown -R hadoop:hadoop scala-2.10.6

(3)修改环境变量文件 .bashrc , 添加以下内容。

export SCALA_HOME=/opt/ scala-2.10.6
export PATH=$PATH:$SCALA_HOME/bin

运行 source .bashrc 使环境变量生效。
(4)验证Scala安装,命令行输入scala -version
2)Slave机器
slave01 和 slave02 参照 master 机器安装步骤进行安装。
3、Spark安装
1)master机器
(1)下载 spark-1.6.3-bin-hadoop2.6.tgz,解压到 /opt 目录下。
(2)修改 spark-1.6.3-bin-hadoop2.6 目录所属用户和用户组。

sudo chown -R hadoop:hadoop spark-1.6.3-bin-hadoop2.6

(3)修改环境变量文件 .bashrc , 添加以下内容。

export SPARK_HOME=/opt/spark-1.6.3-bin-hadoop2.6
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin

运行 source .bashrc 使环境变量生效。
(4)Spark 配置
进入 Spark 安装目录下的 conf 目录, 拷贝 spark-env.sh.templatespark-env.sh

cp spark-env.sh.template spark-env.sh

编辑 spark-env.sh,在其中添加以下配置信息:

export SCALA_HOME=/opt/scala-2.10.6
export JAVA_HOME=/opt/java/jdk1.8.0
export SPARK_MASTER_IP=192.168.109.137
export SPARK_WORKER_MEMORY=1g
export HADOOP_CONF_DIR=/opt/hadoop-2.6.4/etc/hadoop

以上变量说明如下:

JAVA_HOME 指定 Java 安装目录。
SCALA_HOME 指定 Scala 安装目录。
SPARK_MASTER_IP 指定 Spark 集群 Master 节点的 IP 地址。
SPARK_WORKER_MEMORY 指定的是 Worker 节点能够分配给 Executors 的最大内存大小。
HADOOP_CONF_DIR 指定 Hadoop 集群配置文件目录。
slaves.template 拷贝到 slaves, 编辑其内容为:

master
slave01
slave02

即 master 既是 Master 节点又是 Worker 节点。

2)slave机器

slave01 和 slave02 参照 master 机器安装步骤进行安装。

最后,进入spark目录中的sbin目录,./start-all.sh启动spark集群

站内文章推荐:

「2018年前端面试知识点」最新汇总

超级好用的开发工具,程序员实用工具整理

收集优质的中文前端博客(不定期更新中)

站内搜索功能(laravel自带Scout驱动+elasticsearch)

vue中Axios的封装和API接口的管理

参与评论