在 Windows 10 中安装和设置 Spark 开发环境

Spark是一个针对超大数据集合的低延迟的集群分布式计算系统，与同为大数据处理的框架 Hadoop 相比，最明显的就是快。本文介绍在 Windows 10 中搭建 Spark 2.4.4 版开发环境。

环境需求

OS: Windows 10
Java: JDK 8

安装过程

首先到官网去下载 Spark 的分发包, 本文选择下载的是 2.4.4 for Pre-build for Apache Hadoop 2.7 的版本。下载链接。
到 Winutils 的官网下载 hadoop 对应版本的工具, 比如上一步我选择的是 Hadoop 2.7 , 这一步就可以选择下载 hadoop-2.7.1 的版本。其实就是下载后就是名为 hadoop-2.7.1 的目录，我们需要的就是其 bin 子目录中的内容。
将第一步下载的文件 spark-2.4.4-bin-hadoop2.7.tgz 解压到是定目录，我指定到 d:\devel 目录中，解压完以后得到 d:\devel\spark-2.4.4-bin-hadoop2.7 目录，里面就是 spark 的程序了。
将第二部下载内容中 bin 目录下的所有文件复制到 d:\devel\spark-2.4.4-bin-hadoop2.7\bin 目录中去。
设置环境变量:

新增如下的两个环境变量：

1 2	HADOOP_HOME = d:\devel\spark-2.4.4-bin-hadoop2.7 SPARK_HOME = d:\devel\spark-2.4.4-bin-hadoop2.7

修改 PATH 环境变量，在最后增加如下的值:

1	;d:\devel\spark-2.4.4-bin-hadoop2.7\bin

验证安装

打开一个 CMD 窗口，在窗口中执行:

1	spark-shell

如果没有问题，将进入 Spark 的交互命令模式，类似以下界面:

Using Spark's default log4j profile: org/apache/spark/log4j-defaults.properties
Setting default log level to "WARN".
To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).
Spark context Web UI available at http://DESKTOP-DUER5RE:4040
Spark context available as 'sc' (master = local[*], app id = local-1575159271759).
Spark session available as 'spark'.
Welcome to
      ____              __
     / __/__  ___ _____/ /__
    _\ \/ _ \/ _ `/ __/  '_/
   /___/ .__/\_,_/_/ /_/\_\   version 2.4.4
      /_/

Using Scala version 2.11.12 (Java HotSpot(TM) 64-Bit Server VM, Java 1.8.0_191)
Type in expressions to have them evaluated.
Type :help for more information.

scala>

输入

:quit

可推出交互命令模式