Spark在Windows下的环境搭建方法

本文主要是讲解Spark在Windows环境是如何搭建的

一、JDK的安装

1、1 下载JDK

首先需要安装JDK,并且将环境变量配置好,如果已经安装了的老司机可以忽略。JDK(全称是JavaTM Platform Standard Edition Development Kit)的安装,去Oracle官网下载,下载地址是Java SE Downloads

上图中两个用红色标记的地方都是可以点击的,点击进去之后可以看到这个最新版本的一些更为详细的信息,如下图所示:

下载完之后,我们安装就可以直接JDK,JDK在windows下的安装非常简单,按照正常的软件安装思路去双击下载得到的exe文件,然后设定你自己的安装目录(这个安装目录在设置环境变量的时候需要用到)即可。

1、2 JDK环境变量设置

接下来设置相应的环境变量,设置方法为:在桌面右击【计算机】--【属性】--【高级系统设置】,然后在系统属性里选择【高级】--【环境变量】,然后在系统变量中找到“Path”变量,并选择“编辑”按钮后出来一个对话框,可以在里面添加上一步中所安装的JDK目录下的bin文件夹路径名,我这里的bin文件夹路径名是:C:\Program Files\Java\jre1.8.0_92\bin,所以将这个添加到path路径名下,注意用英文的分号“;”进行分割。如图所示:

这样设置好后,便可以在任意目录下打开的cmd命令行窗口下运行下面命令。查看是否设置成功。

java -version

观察是否能够输出相关java的版本信息,如果能够输出,说明JDK安装这一步便全部结束了。如图所示:

二、Scala的安装

我们从官网:http://www.scala-lang.org/下载Scala,最新的版本为2.12.3,如图所示

因为我们是在Windows环境下,这也是本文的目的,我们选择对应的Windows版本下载,如图所示:

下载得到Scala的msi文件后,可以双击执行安装。安装成功后,默认会将Scala的bin目录添加到PATH系统变量中去(如果没有,和上面JDK安装步骤中类似,将Scala安装目录下的bin目录路径,添加到系统变量PATH中),为了验证是否安装成功,开启一个新的cmd窗口,输入scala然后回车,如果能够正常进入到Scala的交互命令环境则表明安装成功。如下图所示:

备注:如果不能显示版本信息,并且未能进入Scala的交互命令行,通常有两种可能性:
1、Path系统变量中未能正确添加Scala安装目录下的bin文件夹路径名,按照JDK安装中介绍的方法添加即可。
2、Scala未能够正确安装,重复上面的步骤即可。

三、Spark的安装

我们到Spark官网进行下载:http://spark.apache.org/,我们选择带有Hadoop版本的Spark,如图所示:

下载后得到了大约200M的文件: spark-2.2.0-bin-hadoop2.7

这里使用的是Pre-built的版本,意思就是已经编译了好了,下载来直接用就好,Spark也有源码可以下载,但是得自己去手动编译之后才能使用。下载完成后将文件进行解压(可能需要解压两次),最好解压到一个盘的根目录下,并重命名为Spark,简单不易出错。并且需要注意的是,在Spark的文件目录路径名中,不要出现空格,类似于“Program Files”这样的文件夹名是不被允许的。我们在C盘新建一个Spark文件夹存放,如图所示:

解压后基本上就差不多可以到cmd命令行下运行了。但这个时候每次运行spark-shell(spark的命令行交互窗口)的时候,都需要先cd到Spark的安装目录下,比较麻烦,因此可以将Spark的bin目录添加到系统变量PATH中。例如我这里的Spark的bin目录路径为D:\Spark\bin,那么就把这个路径名添加到系统变量的PATH中即可,方法和JDK安装过程中的环境变量设置一致,设置完系统变量后,在任意目录下的cmd命令行中,直接执行spark-shell命令,即可开启Spark的交互式命令行模式。

系统变量设置后,就可以在任意当前目录下的cmd中运行spark-shell,但这个时候很有可能会碰到各种错误,这里主要是因为Spark是基于hadoop的,所以这里也有必要配置一个Hadoop的运行环境。错误如图所示:

接下来,我们还需要安装Hadoop。

四、Hadoop的安装

Hadoop Releases里可以看到Hadoop的各个历史版本,这里由于下载的Spark是基于Hadoop 2.7的(在Spark安装的第一个步骤中,我们选择的是Pre-built for Hadoop 2.7),我这里选择2.7.1版本,选择好相应版本并点击后,进入详细的下载页面,如下图所示:

选择图中红色标记进行下载,这里上面的src版本就是源码,需要对Hadoop进行更改或者想自己进行编译的可以下载对应src文件,我这里下载的就是已经编译好的版本,即图中的“hadoop-2.7.1.tar.gz”文件。

下载并解压到指定目录,,我这里是C:\Hadoop,如图所示:

然后到环境变量部分设置HADOOP_HOME为Hadoop的解压目录,如图所示:

然后再设置该目录下的bin目录到系统变量的PATH下,我这里也就是C:\Hadoop\bin,如果已经添加了HADOOP_HOME系统变量,也可用%HADOOP_HOME%\bin来指定bin文件夹路径名。这两个系统变量设置好后,开启一个新的cmd窗口,然后直接输入spark-shell命令。如图所示:

正常情况下是可以运行成功并进入到Spark的命令行环境下的,但是对于有些用户可能会遇到空指针的错误。这个时候,主要是因为Hadoop的bin目录下没有winutils.exe文件的原因造成的。这里的解决办法是:

可以去https://github.com/steveloughran/winutils选择你安装的Hadoop版本号,然后进入到bin目录下,找到winutils.exe文件,下载方法是点击winutils.exe文件,进入之后在页面的右上方部分有一个Download按钮,点击下载即可。 如图所示:

下载winutils.exe文件

将下载好winutils.exe后,将这个文件放入到Hadoop的bin目录下,我这里是C:\Hadoop\hadoop-2.7.1\bin。

在打开的cmd中输入

代码如下:

C:\Hadoop\hadoop-2.7.1\bin\winutils.exe chmod 777 /tmp/Hive //修改权限,777是获取所有权限

但是我们发现报了一些其他的错(Linux环境下也是会出现这个错误)

<console>:14: error: not found: value spark
    import spark.implicits._
        ^
 <console>:14: error: not found: value spark
    import spark.sql

其原因是没有权限在spark中写入metastore_db 这个文件。

处理方法:我们授予777的权限

Linux环境,我们在root下操作:

sudo chmod 777 /home/hadoop/spark

 #为了方便,可以给所有的权限
 sudo chmod a+w /home/hadoop/spark

window环境下:

存放Spark的文件夹不能设为只读和隐藏,如图所示:

授予完全控制的权限,如图所示:

经过这几个步骤之后,然后再次开启一个新的cmd窗口,如果正常的话,应该就可以通过直接输入spark-shell来运行Spark了。正常的运行界面应该如下图所示:

六、Python下Spark开发环境搭建

下面简单讲解Python下怎么搭建Spark环境

1、将spark目录下的pyspark文件夹(C:\Spark\python\pyspark)复制到python安装目录C:\Python\Python35\Lib\site-packages里。如图所示

spark的pysaprk

将pyspark拷贝至Python的安装的packages目录下。

2、然后使用cd命令,进入目录D:\python27\Scripts,运行pip install py4j安装py4j库。如图所示:

如果需要在python中或者在类似于IDEA IntelliJ或者PyCharm(笔者用的就是PyCharm)等IDE中使用PySpark的话,需要在系统变量中新建一个PYTHONPATH的系统变量,然后设置好下面变量值就可以了

PATHONPATH=%SPARK_HOME%\python;%SPARK_HOME%\python\lib\py4j-0.10.4-src.zip

后面的事情就交给PyCharm了。

至此,Spark在Windows环境下的搭建讲解已结束。

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持我们。

(0)

相关推荐

  • Spark在Windows下的环境搭建方法

    本文主要是讲解Spark在Windows环境是如何搭建的 一.JDK的安装 1.1 下载JDK 首先需要安装JDK,并且将环境变量配置好,如果已经安装了的老司机可以忽略.JDK(全称是JavaTM Platform Standard Edition Development Kit)的安装,去Oracle官网下载,下载地址是Java SE Downloads. 上图中两个用红色标记的地方都是可以点击的,点击进去之后可以看到这个最新版本的一些更为详细的信息,如下图所示: 下载完之后,我们安装就可以直

  • centos7系统nginx服务器下phalcon环境搭建方法详解

    本文实例讲述了centos7系统nginx服务器下phalcon环境搭建方法.分享给大家供大家参考,具体如下: 之前我们采用的是Apache服务器,可是每秒响应只能达到2000,听说nginx可以轻易破万, 于是换成nginx试试. phalcon的官网有nginx重写规则的示例,可是却与apache的不一致,被坑了好久. 1.添加nginx源 vi /etc/yum.repos.d/nginx.repo [nginx] name=nginx repo baseurl=http://nginx.

  • Spark在Win10下的环境搭建过程

    前言 本章将介绍如何在WIN10下实现spark环境搭建. 本章概要 1.版本说明 2.环境准备: jdk配置: scala安装与配置: spark安装与配置: hadoop安装与配置: 版本说明 jdk:1.8 scala:2.11.8 spark:2.3.0 hadoop:2.8.3 环境准备 jdk配置 1.配置JAVA_HOME与Path: Path 2.验证配置: scala安装与配置 1.scala下载: 访问官方地址  http://www.scala-lang.org/downl

  • Windows下SVN服务器搭建方法整理(apache)

    本节和大家谈谈Windows下SVN服务器搭建问题,在这里拿出来和大家分享一下,希望对大家有用. 1,软件下载 Windows下SVN服务器搭建,下载Subversion服务器程序.到官方网站的下载二进制安装文件,来到二进制包下载部分,找到WindowsNT,2000,XPand2003部分,然后选择"thisdirectory",这样我们可以看到许多下载的内容,目前可以下载svn-1.4.0-setup.exe.下载Subversion的Windows客户端TortoiseSVN.T

  • Windows下使用IDEA搭建Hadoop开发环境的详细方法

    笔者鼓弄了两个星期,终于把所有有关hadoop的环境配置好了,一是虚拟机上的 完全分布式集群 ,但是为了平时写代码的方便,则在windows上也配置了hadoop的 伪分布式集群 ,同时在IDEA上就可以编写代码,同时在windows环境下进行运行.(如果不配置windows下的伪分布式集群,则在IDEA上编写的代码无法在windows平台下运行).笔者在网络上找了很多有关windows下使用idea搭建hadoop开发环境的中文教程都不太全,最后使用国外的英文教程配置成功,因此这里整理一下,方

  • Windows下使用VMWare搭建Linux环境的步骤(图文)

    自从还了Mac 后,原来的笔记本就闲置了下来,这台笔记本的配置还是不错的,可以装几个虚拟机用来平时的搭建小规模集群的实践. 准备工作 安装VMWare 版本 :VMware Workstation 15 Pro 15.5.6 build-16341506 安装步骤没有过多可说的,. 下载 Linux发行版 由于我的云服务器一用的CentOS ,也习惯了,所以这次也是使用了 CentOS 版本 : CentOS 7 可以在 清华镜像站下载 ,一般情况 下载 4.5G 左右的这个 创建虚拟机 打开

  • Centos7环境下YUM的搭建方法

    1.进入yum源的配置文件 2.ls查看配置文件的东西 3.建立一个目录(随意创建一个目录) ,然后将yum源中配置文件全部用mv指令移动到创造的目录中并查看  4.在创造的目录中将CentOS-Media.repo移动到yum源的配置文件中并查看(用mv指令)   5. 编辑CentOS-Media.repo(具体编辑地方如下)  6.开虚拟机的光盘并挂载光盘 7.测试yum源是否搭建成功 (yum install samba -y)出现Complete则搭建成功 到此这篇关于Centos7环

  • windows下使用vscode搭建golang环境并调试的过程

    目录 安装 环境变量配置 运行helloword 设置代理 vscode编辑器调试golang 一种语言会老吗? 我觉得会的,Objective-C语言变老了,就出现了 Swift语言.头号的语言c语言变老了,golang语言就出现了. 他们是像似一种血缘的关系,一出生就带有了某种的相似性. 如果你对c语言很熟悉,不妨看看 golang语言,看看他们的相似性,和 golang语言自身带有的现代性. 安装 到官方的下载地址下进行下载:点这里. 如果不想看那么多英文的话,直接点击下载就可以了,这里是

  • Centos6.5和Centos7 php环境搭建方法

    总有人认为linux搭建php环境很复杂,然后尝试安装lnmp一键安装包.其实说白了就是安装一个web服务器,然后支持php即可,很简单的,比起你安装lnmp一键安装包还要简单.不说大话,看实际安装步骤. 首先我们先查看下centos的版本信息 复制代码 代码如下: #适用于所有的linux lsb_release -a #或者 cat /etc/redhat-release #又或者 rpm -q centos-release 以上三种任意一种均可查看centos的版本信息. 这里我们分别在c

  • Windows下MySQL安装配置方法图文教程

    Windows下的安装与配置MySQL详细步骤思路,分享给大家,供大家参考,具体内容如下 本文介绍Windows XP下的安装与配置. 要想在Windows中运行MySQL,需要: Ø 32位Windows操作系统,例如9x.Me.NT.2000.XP或Windows Server 2003. 基于Windows NT的操作系统(NT,2000,XP,2003),将MySQL服务器做为服务来运行.强烈建议使用基于Windows NT的操作系统. Ø TCP/IP协议支持(也许是所有数据库系统的基

随机推荐