windows下pycharm搭建spark环境并成功运行附源码

2025-04-09 22:14:25

windows下spark的安装和运行建议看到这篇文章(描述非常详细)

Spark在Win10下的环境搭建

一、创建项目和.py文件

二、在pycharm中添加spark环境

若是左侧的python中没有，可点击‘'+‘'号进行添加

配置spark环境：总共3个（SPARK_HOME、HADOOP_HOME、PYTHONPATH）

（注：SPARK_HOME和HADOOP_HOME已在系统的环境变量添加，故这里不再添加）

在编写代码时，建议添加如下代码，保证程序能够运行成功：

import os
import sys
import findspark  # 一定要在最前面导入

'''初始化spark环境'''
findspark.init()
# Path for spark source folder
os.environ['SPARK_HOME'] = "G:\Spark\Install\spark-2.4.3-bin-hadoop2.7"
# Append pyspark to Python Path
sys.path.append("G:\Spark\Install\spark-2.4.3-bin-hadoop2.7\python")

'''示例'''
from pyspark import SparkContext,SparkConf
from pyspark.sql import SparkSession
from pyspark.sql import Row

# SparkContext是spark功能的主要入口
sc = SparkContext("local", "app")
RawSalesDataRDD = sc.textFile("G:\\Spark\\作业\\taxi.csv")
print(RawSalesDataRDD.take(5))
salesRDD = RawSalesDataRDD.map(lambda line: line.split(","))
print(salesRDD.take(5))
taxi_Rows = salesRDD.map(lambda p:
                         Row(
                             id=p[0],
                             lat=p[1],
                             lon=p[2],
                             time=p[3]
                        ))

sqlContext = SparkSession.builder.getOrCreate()
taxi_df = sqlContext.createDataFrame(taxi_Rows)
print(taxi_Rows.take(5))

print('查看dataframe的字段名称和前5行数据：')
taxi_df.printSchema()
taxi_df.show(5)

'''使用SQL语句  操作表数据'''
# #创建临时表taxi_table
taxi_df.registerTempTable("taxi_table")

# 查询编号为 5 的出租车的 GPS 数据的前 10 行
taxi_df.filter("id='5'").show(10)
taxi_df.where("id='5'").show(10)
sqlContext.sql("select * from taxi_table where id='5'").show(10)

代码运行结果：

到此这篇关于windows下pycharm搭建spark环境并成功运行附源码的文章就介绍到这了,更多相关pycharm搭建spark环境内容请搜索我们以前的文章或继续浏览下面的相关文章希望大家以后多多支持我们！

使用docker快速搭建Spark集群的方法教程

前言 Spark 是 Berkeley 开发的分布式计算的框架,相对于 Hadoop 来说,Spark 可以缓存中间结果到内存而提高某些需要迭代的计算场景的效率,目前收到广泛关注.下面来一起看看使用docker快速搭建Spark集群的方法教程. 适用人群正在使用spark的开发者正在学习docker或者spark的开发者准备工作安装docker (可选)下载java和spark with hadoop Spark集群 Spark运行时架构图如上图: Spark集群由以下两个部分组成集
Spark在Windows下的环境搭建方法

本文主要是讲解Spark在Windows环境是如何搭建的一.JDK的安装 1.1 下载JDK 首先需要安装JDK,并且将环境变量配置好,如果已经安装了的老司机可以忽略.JDK(全称是JavaTM Platform Standard Edition Development Kit)的安装,去Oracle官网下载,下载地址是Java SE Downloads. 上图中两个用红色标记的地方都是可以点击的,点击进去之后可以看到这个最新版本的一些更为详细的信息,如下图所示: 下载完之后,我们安装就可以直
PyCharm搭建Spark开发环境的实现步骤

1.安装好JDK 下载并安装好jdk-12.0.1_windows-x64_bin.exe,配置环境变量: 新建系统变量JAVA_HOME,值为Java安装路径新建系统变量CLASSPATH,值为 .;%JAVA_HOME%\lib\dt.jar;%JAVA_HOME%\lib\tools.jar;(注意最前面的圆点) 配置系统变量PATH,添加 %JAVA_HOME%bin;%JAVA_HOME%jrebin 在CMD中输入:java或者java -version,不显示不是内部命令等,说明
PyCharm搭建Spark开发环境实现第一个pyspark程序

一, PyCharm搭建Spark开发环境 Windows7, Java1.8.0_74, Scala 2.12.6, Spark 2.2.1, Hadoop2.7.6 通常情况下,Spark开发是基于Linux集群的,但这里作为初学者并且囊中羞涩,还是在windows环境下先学习吧. 参照这个配置本地的Spark环境. 之后就是配置PyCharm用来开发Spark.本人在这里浪费了不少时间,因为百度出来的无非就以下两种方式: 1.在程序中设置环境变量 import os import sys
Spark在Win10下的环境搭建过程

前言本章将介绍如何在WIN10下实现spark环境搭建. 本章概要 1.版本说明 2.环境准备: jdk配置: scala安装与配置: spark安装与配置: hadoop安装与配置: 版本说明 jdk:1.8 scala:2.11.8 spark:2.3.0 hadoop:2.8.3 环境准备 jdk配置 1.配置JAVA_HOME与Path: Path 2.验证配置: scala安装与配置 1.scala下载: 访问官方地址 http://www.scala-lang.org/downl
Python搭建Spark分布式集群环境

前言 Apache Spark 是一个新兴的大数据处理通用引擎,提供了分布式的内存抽象.Spark 最大的特点就是快,可比 Hadoop MapReduce 的处理速度快 100 倍.本文没有使用一台电脑上构建多个虚拟机的方法来模拟集群,而是使用三台电脑来搭建一个小型分布式集群环境安装. 本教程采用Spark2.0以上版本(比如Spark2.0.2.Spark2.1.0等)搭建集群,同样适用于搭建Spark1.6.2集群. 安装Hadoop并搭建好Hadoop集群环境 Spark分布式集群的安装
Linux下搭建Spark 的 Python 编程环境的方法

Spark编程环境 Spark 可以独立安装使用,也可以和Hadoop 一起安装使用.在安装 Spark 之前,首先确保你的电脑上已经安装了 Java 8 或者更高的版本. Spark 安装访问 Spark 下载页面 ,并选择最新版本的 Spark 直接下载,当前的最新版本是 2.4.2 .下载好之后需要解压缩到安装文件夹中,看自己的喜好,我们是安装到了 /opt 目录下. tar -xzf spark-2.4.2-bin-hadoop2.7.tgz mv spark-2.4.2-bin-ha
windows下pycharm搭建spark环境并成功运行附源码

windows下spark的安装和运行建议看到这篇文章(描述非常详细) Spark在Win10下的环境搭建一.创建项目和.py文件二.在pycharm中添加spark环境若是左侧的python中没有,可点击''+''号进行添加配置spark环境:总共3个(SPARK_HOME.HADOOP_HOME.PYTHONPATH) (注:SPARK_HOME和HADOOP_HOME已在系统的环境变量添加,故这里不再添加) 在编写代码时,建议添加如下代码,保证程序能够运行成功: import o
Windows下PyCharm配置Anaconda环境(超详细教程)

首先来明确一下Python.PyCharm和Anaconda的关系 1.Python是一种解释型.面向对象.动态数据类型的高级程序设计语言. 虽然Python3.5自带了一个解释器IDLE用来执行.py脚本,但是却不利于我们书写调试大量的代码.常见的是用Notepade++写完脚本,再用idle来执行,但却不便于调试.这时候就出现了PyCharm等IDE,来帮助我们调试开发. 2.PyCharm是一种Python IDE,带有一整套可以帮助用户在使用Python语言开发时提高其效率的工具,比如调
从零搭建Webpack5-react脚手架的实现步骤(附源码)

目录 webpack5 正式开始搭建指南开始搭建完成了依赖的准备工作,开始搭建项目编写webpack.dev.js开发配置开始编写webpack.prod.js生产配置编写scripts命令配置代码质量管控流程单元测试 webpack5 近期终于有时间和精力专注于公司技术基础建设了,于是一开始,将公司的Saas系统改造成了微前端模式,解决了历史遗留的一部分问题接着,想着webpack5已经发布这么久了,该在生产环境用起来了,也顺势想推动微前端.webpack5.vite在业内的
Android编程之ICS式下拉菜单PopupWindow实现方法详解(附源码下载)

本文实例讲述了Android编程之ICS式下拉菜单PopupWindow实现方法.分享给大家供大家参考,具体如下: 运行效果截图如下: 右边这个就是下拉菜单啦,看见有的地方叫他 ICS式下拉菜单,哎哟,不错哦! 下面先讲一下实现原理: 这种菜单实际上就是一个弹出式的菜单,于是我们想到android PopupWindow 类,给他设置一个view 在弹出来不就OK了吗. PopupWindow 的用法也很简单主要方法: 步骤1.new 一个实例出来,我们使用这个构造方法即可, 复制代码代码如
Windows下Pycharm远程连接虚拟机中Centos下的Python环境(图文教程详解)

由于最近学习tensorflow的需要,tensorflow是在Linux环境下,使用的是Python.为了方便程序的调试,尝试在Windows下的Pycharm远程连接到虚拟机中Centos下的Python环境.(这里我采用的是ssh的远程连接) 1.准备工作: 固定centos的IP,这里我的固定IP为 192.168.254.128 . centos中安装ssh.(这里我采用的是ssh的远程连接) centos中Python环境已安装. 2.打开Pycharm,File->Settings
windows下Pycharm安装opencv的多种方法

之前在默认环境中用pip安装过一次opencv,当时就是参考比人方法弄,稀里糊涂的,然后今天想在自己别的环境下(tensorflow)下安装终于弄懂了一些,暂时发现了几种安装的方法,特此记录下. 方法1:在Pycharm自带的库中下载(暂且这么叫吧,如下图) 这个方法我也是看别人说的,自己还没试过,描述也没介绍版本啥的,所以个人也不推荐- 方法2: 就是opencv官网介绍的安装方法,但是有些需要改,这里把步骤说明下: 1)先下载win版本的opencv并extract,然后在opencv\bu
Windows下pycharm安装第三方库失败(通用解决方案)

学习python都知道,python的第三方库是很多,如果都在本机 pip 的话,在新建项目的时候都会加载不需要用到的库,影响运行速度.而且现在都是用pycharm,因为它强大好用方便.但是pycharm安装第三库也会失败的. Python有一个 virtualenv 的库,是管理虚拟运行环境,可以独立每一个运行环境,这样就可以分离不必要的库而影响运行了. pycharm强大在于创建一个Project的时候可以选择virtualenv, 选择图中可以直接创建一个独立的 Virtualenv 运行
Windows下快速搭建NodeJS本地服务器的步骤

本文介绍了Windows下快速搭建NodeJS本地服务器的步骤,分享给大家,具体如下: 首先我们要到Node.js官网下载对应版本的安装包 http://nodejs.cn/download/ 接着就是安装,和安装普通软件类似,直接下一步下一步就可以了. 之后我们来验证node是否安装成功,Win+R输入cmd来调出控制台并输入node -v和npm -v来查看node版本和npm(包管理工具)版本. 接着我们来创建一个server.js文件,并将下面的代码粘贴上去 var http = req
在windows下快速搭建web.py开发框架方法

用Python进行web开发的话有很多框架供选择,比如最出名的Django,tornado等,除了这些框架之外,有一个轻量级的框架使用起来也是非常方便和顺手,就是web.py.它由一名黑客所创建,但是不幸的是这位创建者于2013年自杀了.据说现在由另外一个人在维护和更新.现在就来了解一下windows下如何搭建web.py开发环境. 一.安装web.py 在 https://github.com/webpy/webpy上下载web.py安装包.注意github对浏览器版本有要求的,比如不支持IE

windows下pycharm搭建spark环境并成功运行 附源码

一、创建项目和.py文件

二、在pycharm中添加spark环境

相关推荐

随机推荐

windows下pycharm搭建spark环境并成功运行附源码