本文是spark完全分布式集群搭建使用
关键字: spark完全分布式
本文关键字:spark完全分布式,搭建
Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是——Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。
1. 软件准备
scala-2.10.6.tgz
spark-1.6.3-bin-hadoop2.6.tgz
- Scala安装
1)master机器
(1)下载 scala-2.10.6.tgz
, 解压到 /opt目录下,即: /opt/scala-2.10.6。
(2)修改 scala-2.10.6.tgz
目录所属用户和用户组。
sudo chown -R hadoop:hadoop scala-2.10.6
(3)修改环境变量文件 .bashrc , 添加以下内容。
export SCALA_HOME=/opt/ scala-2.10.6
export PATH=$PATH:$SCALA_HOME/bin
运行 source .bashrc 使环境变量生效。
(4)验证Scala安装,命令行输入scala -version
2)Slave机器
slave01 和 slave02 参照 master 机器安装步骤进行安装。
3、Spark安装
1)master机器
(1)下载 spark-1.6.3-bin-hadoop2.6.tgz,解压到 /opt 目录下。
(2)修改 spark-1.6.3-bin-hadoop2.6 目录所属用户和用户组。
sudo chown -R hadoop:hadoop spark-1.6.3-bin-hadoop2.6
(3)修改环境变量文件 .bashrc , 添加以下内容。
export SPARK_HOME=/opt/spark-1.6.3-bin-hadoop2.6
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin
运行 source .bashrc 使环境变量生效。
(4)Spark 配置
进入 Spark 安装目录下的 conf 目录, 拷贝 spark-env.sh.template
到 spark-env.sh
。
cp spark-env.sh.template spark-env.sh
编辑 spark-env.sh,在其中添加以下配置信息:
export SCALA_HOME=/opt/scala-2.10.6
export JAVA_HOME=/opt/java/jdk1.8.0
export SPARK_MASTER_IP=192.168.109.137
export SPARK_WORKER_MEMORY=1g
export HADOOP_CONF_DIR=/opt/hadoop-2.6.4/etc/hadoop
以上变量说明如下:
JAVA_HOME
指定 Java 安装目录。
SCALA_HOME
指定 Scala 安装目录。
SPARK_MASTER_IP
指定 Spark 集群 Master 节点的 IP 地址。
SPARK_WORKER_MEMORY
指定的是 Worker 节点能够分配给 Executors 的最大内存大小。
HADOOP_CONF_DIR
指定 Hadoop 集群配置文件目录。
将 slaves.template
拷贝到 slaves
, 编辑其内容为:
master
slave01
slave02
即 master 既是 Master 节点又是 Worker 节点。
2)slave机器
slave01 和 slave02 参照 master 机器安装步骤进行安装。
最后,进入spark目录中的sbin目录,./start-all.sh启动spark集群
站内文章推荐:
「2018年前端面试知识点」最新汇总
超级好用的开发工具,程序员实用工具整理
收集优质的中文前端博客(不定期更新中)
站内搜索功能(laravel自带Scout驱动+elasticsearch)
vue中Axios的封装和API接口的管理