MAC下Anaconda+Pyspark安装配置详细步骤

在MAC的Anaconda上使用pyspark,主要包括以下步骤:

  • 在MAC下安装Spark,并配置环境变量。
  • 在Anaconda中安装引用pyspark。

1. MAC下安装Spark

  到Apark Spark官网上下载Spark文件,无论是windows系统,还是MAC系统,亦或者Linux系统,都可以下载这个文件(独立于系统)。

将下载的文件进行解压(可以使用命令行进行解压,也可以使用解压软件)。解压之后的文件如下:

配置环境变量。打开MAC命令行窗口,输入如下命令:

sudo vi ~/.bash_profile #bash_profile是当前用户的环境变量文件

打开bash_profile文件,并在该文件中增加以下两行命令:

export SPARK_HOME="/Users/sherry/documents/spark/spark-3.1.2-bin-hadoop2.7" #spark文件的完整解压目录
export PATH=${PATH}:${SPARK_HOME}/bin

如下图

保存并退出之后,运行以下命令:

source ~/.bash_profile #让修改的bash_profile生效
echo $PATH #查看环境变量,可以看到新增的路径名

一般MAC上使用的是zsh的shell工具,需要修改zshrc文件来使环境变量永久生效(若不修改该文件,在命令行中输入spark- shell或者pyspark时可能会提示zsh:command not found:pysparkzsh:command not found spark-shell )。输入以下命令:

vi ~/.zshrc

修改该文件,添加如下命令:

if [ -f ~/.bash_profile ]; then
        source ~/.bash_profile
fi

保存并退出即可。下面来验证spark是否正确安装,具体如下:
(1)命令行中输入spark-shell

(2)命令行中输入pyspark

至此,spark已经安装成功。

2.在Anaconda中引用pyspark

  想要在Anacond中使用pyspark, 只需将spark解压文件中python文件夹下的pyspark复制到Anaconda下的site-packages文件中。下面来验证一下是否能在spyder中使用pyspark, 使用如下代码:

from pyspark import SparkContext, SparkConf

if __name__ == "__main__":
    spark_conf = SparkConf()\
        .setAppName('Python_Spark_WordCount')\
        .setMaster('local[2]')
    #使用spark最原始的API进行数据分析
    sc = SparkContext(conf=spark_conf)
    sc.setLogLevel('WARN')
    print (sc)
   # ------创建RDD,需要分析的数据 --------------------------------------
    def local_rdd(spark_context):
        datas = ['hadoop spark','hadoop hive spark','hadoop hive spark',\
                 'hadoop python spark','hadoop python spark',]
        return spark_context.parallelize(datas)

    rdd = local_rdd(sc)
    print (rdd.count())
    print (rdd.first())
    sc.stop()

运行发现提示如下错误:

从提示信息可以知道,找不到SPARK_HOME。可以在上述主函数中增加如下代码:

import os
#添加spark安装目录
os.environ['SPARK_HOME'] ='/Users/sherry/documents/spark/spark-3.1.2-bin-hadoop2.7'

重新运行即可得到如下结果:

5

hadoop spark

到此这篇关于MAC+Anaconda+Pyspark安装配置教程的文章就介绍到这了,更多相关Anaconda Pyspark安装配置内容请搜索我们以前的文章或继续浏览下面的相关文章希望大家以后多多支持我们!

(0)

相关推荐

  • PyCharm+PySpark远程调试的环境配置的方法

    前言:前两天准备用 Python 在 Spark 上处理量几十G的数据,熟料在利用PyCharm进行PySpark远程调试时掉入深坑,特写此博文以帮助同样深处坑中的bigdata&machine learning fans早日出坑. Version :Spark 1.5.0.Python 2.7.14 1. 远程Spark集群环境 首先Spark集群要配置好且能正常启动,版本号可以在Spark对应版本的官方网站查到,注意:Spark 1.5.0作为一个比较古老的版本,不支持Python 3.6+

  • 详解Pycharm与anaconda安装配置指南

    关于文件下载 官网都有提供最新版本的推荐自行下载,如果不介意旧版本的,可以留言我可以分享我是用的版本~ Anaconda安装 打开下载的.exe文件 依次点击:next -> I agree -> All User 选择安装软件的目录,推荐D盘 因为我的C盘比较满,安装在D盘也方便Pycharm的安装和Python文件的存储.(当然如果你的C盘剩余内存较多,就当我的理由是胡扯吧) 当然,不管你选择安装在哪里,确保自己后期找得到安装位置!!!(这点很重要) 路径中不可以出现中文会导致报错!!!

  • anaconda3安装及jupyter环境配置全教程

    1. 下载 可以去清华源下载最新版的anaconda包,这比在官方网站下载快得多,地址如下: https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/ 将网页滚动到最下方,下载最新版本的Anaconda3-5.3.1-Linux-x86_64.sh. wget https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/Anaconda3-5.3.1-Linux-x86_64.sh 2. 安装 使

  • anaconda的安装和配置环境及导入pycharm的方法

    一.anaconda的安装 首先,下载安装包.Anaconda的下载方式有两种: 通过官网下载,选择适合自己的电脑版本的安装包.https://www.anaconda.com/download/ 在官网中下载比较缓慢,可以通过清华大学开源软件镜像站下载. https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/ 双击Anaconda的安装包,按照如下步骤安装: ---------------- 点击进入下一步,按照下图进行安装:为了方便,我将

  • MAC下Anaconda+Pyspark安装配置详细步骤

    在MAC的Anaconda上使用pyspark,主要包括以下步骤: 在MAC下安装Spark,并配置环境变量. 在Anaconda中安装引用pyspark. 1. MAC下安装Spark   到Apark Spark官网上下载Spark文件,无论是windows系统,还是MAC系统,亦或者Linux系统,都可以下载这个文件(独立于系统). 将下载的文件进行解压(可以使用命令行进行解压,也可以使用解压软件).解压之后的文件如下: 配置环境变量.打开MAC命令行窗口,输入如下命令: sudo vi

  • Ubuntu环境下mongodb安装配置详细步骤

    1. 安装mongodb 1.1 安装依赖包 sudo apt-get install libcurl4 openssl 1.2 关闭和卸载原有的mongodb service mongodb stop sudo apt-get remove mongodb 1.3 导入包管理系统使用的公钥 wget -qO - https://www.mongodb.org/static/pgp/server-4.4.asc | sudo apt-key add -  如果命令执行结果没有显示OK,则执行此命

  • Mac下Anaconda的安装和使用教程

    前提 在刚接触python的时候我想大多数人都会面临一个问题,我到底是选择2还是3,因为现在网上好多的资料和视频项目中都还是用的2,我们跟着学习的时候肯定也是首先从2开始学的,但是我们心里肯定也担心学2会不会跟不上技术的发展,毕竟3才是最新的,而且将来的项目势必也都会逐渐去支持最新的3,这个时候我们就有了既需要一个2的环境来学习以前的一些项目来入门,也需要3的环境来跟上最新的技术,就需要一个强大的python环境管理工具了,可以在电脑上同时搭建两套环境,并且可以在两个环境之间来回切换而不受对方的

  • 浅谈mac下maven的安装配置与使用

    出来实习快半年了,还有一个多月也就即将毕业了.我刚进公司的时候,项目刚刚上线,到现在接近50w日活,成长真不少(虽然曾经因为自己写的SQL性能太差把服务器CPU搞到爆血管两次).你在项目过程中写的业务代码很多,在这个过程中感到很有成就感的,但是如果你只是满足于此,就很难进步了.想要提升自身的能力,还得靠自己在空闲的时间多点去学习,学习项目中相关的技术,学习你的算法逻辑能力.这个星期我们先一起来学习经常接触的maven,maven确实是一个利器,在公司都是架构师负责搭建好项目,我们很少有机会去搭一

  • windows下Anaconda的安装与配置正解(Anaconda入门教程) 原创

    一.下载anaconda 第一步当然是下载anaconda了,官方网站的下载需要用迅雷才能快点,或者直接到清华大学镜像站下载.当然这里推荐我们下载,下载地址都整理好了 下载地址: http://www.jb51.net/softs/556392.html 清华大学提供了镜像,从这个镜像下载速度很快,地址: https://mirrors.tuna.tsinghua.edu.cn/help/anaconda/ 选择相应的版本进行下载就好 下载过程中除了安装位置外,还有两个需要确认的地方. 第一个勾

  • 最新Windows Server 2012 R2安装与基本配置详细步骤

    目录 一.服务器安装 二.服务器基本配置 1.修改计算机名 假如哈你是一家公司的网络管理员,负责管理和维护公司的网络.你的公司新购置了一台计算机,希望你安装Windows Server 2012 R2企业版操作系统,设置好相关参数. 1:安装Windows Server 2012 R2操作系统的步骤: 2:服务器基本配置步骤. 一.服务器安装 二.服务器基本配置 1.修改计算机名 开始-管理工具-服务器管理-(左下角)服务器管理-本地服务器 到此这篇关于最新Windows Server 2012

  • Windows下搭建python开发环境详细步骤

    本文为大家分享了Windows下搭建python开发环境详细步骤,供大家参考,具体内容如下 1.搭建Java环境 (1)直接从官网下载相应版本的JDK或者JRE并点击安装就可以 (2)JDK与JRE的区别: 1)JDK就是Java Development Kit.简单的说JDK是面向开发人员使用的SDK,它提供了Java的开发环境和运行环境.SDK是Software Development Kit 一般指软件开发包,可以包括函数库.编译程序等 2)JRE是Java Runtime Envirom

  • Linxu服务器上安装JDK 详细步骤

    一.环境 VMware12 Pro CentOS-6.7-i386-bin-DVD1 jdk-8u151-linux-i586 二.详细安装步骤 前提:需要卸载自己Linux上的jdk rpm-qa| grepjdk 会显示你所有包含jdk这个字符串的安装包 rpm-e--nodeps对应的每个包名 会卸载对应的包 之后如果java -version显示 就是卸完了. 我之前是装过jdk1.7的,所以我需要卸载 ,没装过的直接从下面开始 1.去官网下载JDK http://www.oracle.

  • Mac下快速搭建PHP开发环境步骤详解

    最近做了一个后端的项目,是用PHP+MySQL+Nginx做的,所以把搭建环境的方法简单总结一下. 备注: 物料:Apache/Nginx+PHP+MySQL+MAMPMac OS 10.12.1 自带Apache,Nginx和PHP 1.运行Apache 查看Apache版本,在终端根目录输入如下命令: sudo apachectl -v 终端会输出Apache的版本及built时间 Server version: Apache/2.4.23 (Unix) Server built:   Au

  • vmware esxi6.5安装使用详细步骤

    简介 ESXi专为运行虚拟机.最大限度降低配置要求和简化部署而设计.只需几分钟时间,客户便可完成从安装到运行虚拟机的全过程,特别是在下载并安装预配置虚拟设备的时候. 在VMware Virtual Appliance Marketplace 上有800多款为VMware hypervisor 创建的虚拟设备,如今,ESXi已经实现了与Virtual Appliance Marketplace的直接整合,使用户能够即刻下载并运行虚拟设备.这为即插即用型软件的交付与安装提供了一种全新和极其简化的方式

随机推荐