Spark是一个针对超大数据集合的低延迟的集群分布式计算系统, 与同为大数据处理的框架 Hadoop 相比,最明显的就是快。本文介绍在 Windows 10 中搭建 Spark 2.4.4 版开发环境。
环境需求
OS: Windows 10
Java: JDK 8
安装过程
首先到官网去下载 Spark 的分发包, 本文选择下载的是 2.4.4 for Pre-build for Apache Hadoop 2.7 的版本。下载链接。
到 Winutils 的官网下载 hadoop 对应版本的工具, 比如上一步我选择的是 Hadoop 2.7 , 这一步就可以选择下载 hadoop-2.7.1 的版本。其实就是下载后就是名为 hadoop-2.7.1 的目录,我们需要的就是其 bin 子目录中的内容。
将第一步下载的文件 spark-2.4.4-bin-hadoop2.7.tgz 解压到是定目录,我指定到 d:\devel 目录中,解压完以后得到 d:\devel\spark-2.4.4-bin-hadoop2.7 目录,里面就是 spark 的程序了。
将第二部下载内容中 bin 目录下的所有文件复制到 d:\devel\spark-2.4.4-bin-hadoop2.7\bin 目录中去。
设置环境变量:
新增如下的两个环境变量:
1 | HADOOP_HOME = d:\devel\spark-2.4.4-bin-hadoop2.7 |
修改 PATH 环境变量,在最后增加如下的值:
1 | ;d:\devel\spark-2.4.4-bin-hadoop2.7\bin |
验证安装
打开一个 CMD 窗口,在窗口中执行:
1 | spark-shell |
如果没有问题,将进入 Spark 的交互命令模式,类似以下界面:
1 | Using Spark's default log4j profile: org/apache/spark/log4j-defaults.properties |
输入
1 | :quit |
可推出交互命令模式