本文是spark完全分布式集群搭建使用
關鍵字: spark完全分布式
本文關鍵字:spark完全分布式,搭建
Apache Spark 是專為大規模數據處理而設計的快速通用的計算引擎。Spark是UC Berkeley AMP lab (加州大學伯克利分校的AMP實驗室)所開源的類Hadoop MapReduce的通用並行框架,Spark,擁有Hadoop MapReduce所具有的優點;但不同於MapReduce的是——Job中間輸出結果可以儲存在內存中,從而不再需要讀寫HDFS,因此Spark能更好地適用於數據挖掘與機器學習等需要迭代的MapReduce的算法。
1. 軟體準備
scala-2.10.6.tgz
spark-1.6.3-bin-hadoop2.6.tgz
- Scala安裝
1)master機器
(1)下載 scala-2.10.6.tgz
, 解壓到 /opt目錄下,即: /opt/scala-2.10.6。
(2)修改 scala-2.10.6.tgz
目錄所屬使用者和使用者組。
sudo chown -R hadoop:hadoop scala-2.10.6
(3)修改環境變數文件 .bashrc , 添加以下內容。
export SCALA_HOME=/opt/ scala-2.10.6
export PATH=$PATH:$SCALA_HOME/bin
運行 source .bashrc 使環境變數生效。
(4)驗證Scala安裝,命令行輸入scala -version
2)Slave機器
slave01 和 slave02 參照 master 機器安裝步驟進行安裝。
3、Spark安裝
1)master機器
(1)下載 spark-1.6.3-bin-hadoop2.6.tgz,解壓到 /opt 目錄下。
(2)修改 spark-1.6.3-bin-hadoop2.6 目錄所屬使用者和使用者組。
sudo chown -R hadoop:hadoop spark-1.6.3-bin-hadoop2.6
(3)修改環境變數文件 .bashrc , 添加以下內容。
export SPARK_HOME=/opt/spark-1.6.3-bin-hadoop2.6
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin
運行 source .bashrc 使環境變數生效。
(4)Spark 配置
進入 Spark 安裝目錄下的 conf 目錄, 拷貝 spark-env.sh.template
到 spark-env.sh
。
cp spark-env.sh.template spark-env.sh
編輯 spark-env.sh,在其中添加以下配置信息:
export SCALA_HOME=/opt/scala-2.10.6
export JAVA_HOME=/opt/java/jdk1.8.0
export SPARK_MASTER_IP=192.168.109.137
export SPARK_WORKER_MEMORY=1g
export HADOOP_CONF_DIR=/opt/hadoop-2.6.4/etc/hadoop
以上變數說明如下:
JAVA_HOME
指定 Java 安裝目錄。
SCALA_HOME
指定 Scala 安裝目錄。
SPARK_MASTER_IP
指定 Spark 集群 Master 節點的 IP 地址。
SPARK_WORKER_MEMORY
指定的是 Worker 節點能夠分配給 Executors 的最大內存大小。
HADOOP_CONF_DIR
指定 Hadoop 集群配置文件目錄。
將 slaves.template
拷貝到 slaves
, 編輯其內容為:
master
slave01
slave02
即 master 既是 Master 節點又是 Worker 節點。
2)slave機器
slave01 和 slave02 參照 master 機器安裝步驟進行安裝。
最後,進入spark目錄中的sbin目錄,./start-all.sh啟動spark集群
站內文章推薦:
「2018年前端面試知識點」最新匯總
超級好用的開發工具,程式員實用工具整理
收集優質的中文前端博客(不定期更新中)
站內搜尋功能(laravel自帶Scout驅動+elasticsearch)
vue中Axios的封裝和API接口的管理