spark完全分布式如何搭建和使用spark完全分布式

资源介绍	参数
资源类别：	代码笔记
如遇问题：	联系客服/留言反馈

spark

本文是spark 完全分布式集群搭建使用

关键字: spark 完全分布式

本文关键字：spark 完全分布式,搭建
Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架，Spark，拥有Hadoop MapReduce所具有的优点；但不同于MapReduce的是——Job中间输出结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。
1. 软件准备

scala-2.10.6.tgz
spark-1.6.3-bin-hadoop2.6.tgz

Scala安装

1）master机器

（1）下载 scala-2.10.6.tgz，解压到 /opt目录下，即： /opt/scala-2.10.6。

（2）修改 scala-2.10.6.tgz目录所属用户和用户组。

sudo chown -R hadoop:hadoop scala-2.10.6

（3）修改环境变量文件 .bashrc , 添加以下内容。

export SCALA_HOME=/opt/ scala-2.10.6
export PATH=$PATH:$SCALA_HOME/bin

运行 source .bashrc 使环境变量生效。
（4）验证Scala安装，命令行输入scala -version
2）Slave机器
slave01 和 slave02 参照 master 机器安装步骤进行安装。
3、Spark安装
1）master机器
（1）下载 spark-1.6.3-bin-hadoop2.6.tgz，解压到 /opt 目录下。
（2）修改 spark-1.6.3-bin-hadoop2.6 目录所属用户和用户组。

sudo chown -R hadoop:hadoop spark-1.6.3-bin-hadoop2.6

（3）修改环境变量文件 .bashrc , 添加以下内容。

export SPARK_HOME=/opt/spark-1.6.3-bin-hadoop2.6
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin

运行 source .bashrc 使环境变量生效。
（4）Spark 配置
进入 Spark 安装目录下的 conf 目录，拷贝 spark-env.sh.template 到 spark-env.sh。

cp spark-env.sh.template spark-env.sh

编辑 spark-env.sh，在其中添加以下配置信息：

export SCALA_HOME=/opt/scala-2.10.6
export JAVA_HOME=/opt/java/jdk1.8.0
export SPARK_MASTER_IP=192.168.109.137
export SPARK_WORKER_MEMORY=1g
export HADOOP_CONF_DIR=/opt/hadoop-2.6.4/etc/hadoop

以上变量说明如下：

JAVA_HOME 指定 Java 安装目录。
SCALA_HOME 指定 Scala 安装目录。
SPARK_MASTER_IP 指定 Spark 集群 Master 节点的 IP 地址。
SPARK_WORKER_MEMORY 指定的是 Worker 节点能够分配给 Executors 的最大内存大小。
HADOOP_CONF_DIR 指定 Hadoop 集群配置文件目录。
将 slaves.template 拷贝到 slaves，编辑其内容为：

master
slave01
slave02

即 master 既是 Master 节点又是 Worker 节点。

2）slave机器

slave01 和 slave02 参照 master 机器安装步骤进行安装。

最后，进入spark目录中的sbin目录，./start-all.sh启动spark集群

站内文章推荐：

「2018年前端面试知识点」最新汇总

超级好用的开发工具，程序员实用工具整理

收集优质的中文前端博客（不定期更新中）

站内搜索功能(laravel自带Scout驱动+elasticsearch)

vue中Axios的封装和API接口的管理

声明：本文为原创作品，版权归作者所有。未经许可，不得转载或用于任何商业用途。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

{{userData.name}}已认证

spark完全分布式如何搭建和使用spark完全分布式

本文是spark 完全分布式集群搭建使用

关键字: spark 完全分布式

站内文章推荐：

WPForms Pro

Blocksy Pro

Divi 主题

Flatsome

All in One SEO Pack Pro

Slider Revolution

WPBakery Page Builder

WP Mail SMTP Pro

All in One WP Migration Unlimited Extension

Polylang Pro

联系我们

会员介绍

隐私政策

用户协议

Facebook Feed Pro

YouTube Feed Pro SmashBalloon

TikTok Feeds Pro Smash Balloon

WordPress网站提速性能优化服务

WordPress网站托管服务，为您的网站保驾护航！

{{userData.name}}已认证

本文是spark完全分布式集群搭建使用

关键字: spark完全分布式

站内文章推荐：

相关文章：

Hadoop2.7.3完全分布式搭建配置参数

hive-2.1.1完全分布式搭建

如何快速通过 VS2017连接Oracle12c 数据库

「前端笔记」从零开始的微信小程序的实战心得

WPForms Pro

Blocksy Pro

Divi 主题

Flatsome

All in One SEO Pack Pro

Slider Revolution

WPBakery Page Builder

WP Mail SMTP Pro

All in One WP Migration Unlimited Extension

Polylang Pro

联系我们

会员介绍

隐私政策

用户协议

Facebook Feed Pro

YouTube Feed Pro SmashBalloon

TikTok Feeds Pro Smash Balloon

WordPress网站提速性能优化服务

WordPress网站托管服务，为您的网站保驾护航！

本文是spark 完全分布式集群搭建使用

关键字: spark 完全分布式