Jupyter notebook运行Spark+Scala教程

2025-03-31 15:03:16

今天在intellij调试spark的时候感觉每次有新的一段代码，都要重新跑一遍，如果用spark-shell，感觉也不是特别方便，如果能像python那样，使用jupyter notebook进行编程就很方便了，同时也适合代码展示，网上查了一下，试了一下，碰到了很多坑，有些是旧的版本，还有些是版本不同导致错误，这里就记录下来安装的过程。

1.运行环境

硬件：Mac

事先装好：Jupyter notebook，spark2.1.0，scala 2.11.8 (这个版本很重要，关系到后面的安装）

2.安装

2.1.scala kernel

从github下载

git clone https://github.com/jupyter-scala/jupyter-scala.git

进入下载的jupyter-scala目录下，运行

bash jupyter-scala

然后查看

jupyter kernelspec list

表示scala已经嵌入到jupyter notebook

2.2.spark kernel

这个也比较好装，但是要注意版本问题，我们用的是toree来装的，首先要安装toree

网上的教程通常直接

pip install toree

但是这个下载的是0.1.0版本，该版本的话问题是，后面装spark kernel后，在jupyter运行spark的时候，默认选的是scala2.10.4版本，会有以下的错误

[I 03:15:16.677 NotebookApp] Kernel started: 94a63354-d294-4de7-a12c-2e05905e0c45
Starting Spark Kernel with SPARK_HOME=/usr/local/spark
16/11/20 03:15:18 [INFO] o.a.t.Main$$anon$1 - Kernel version: 0.1.0.dev8-incubating-SNAPSHOT
16/11/20 03:15:18 [INFO] o.a.t.Main$$anon$1 - Scala version: Some(2.10.4)
16/11/20 03:15:18 [INFO] o.a.t.Main$$anon$1 - ZeroMQ (JeroMQ) version: 3.2.2
16/11/20 03:15:18 [INFO] o.a.t.Main$$anon$1 - Initializing internal actor system
Exception in thread "main" java.lang.NoSuchMethodError: scala.collection.immutable.HashSet$.empty()Lscala/collection/immutable/HashSet;
    at akka.actor.ActorCell$.<init>(ActorCell.scala:336)
    at akka.actor.ActorCell$.<clinit>(ActorCell.scala)
    at akka.actor.RootActorPath.$div(ActorPath.scala:185)
    at akka.actor.LocalActorRefProvider.<init>(ActorRefProvider.scala:465)
    at akka.actor.LocalActorRefProvider.<init>(ActorRefProvider.scala:453)
    at sun.reflect.NativeConstructorAccessorImpl.newInstance0(Native Method)
    at sun.reflect.NativeConstructorAccessorImpl.newInstance(NativeConstructorAccessorImpl.java:62)
    at sun.reflect.DelegatingConstructorAccessorImpl.newInstance(DelegatingConstructorAccessorImpl.java:45)
    at java.lang.reflect.Constructor.newInstance(Constructor.java:423)
    at akka.actor.ReflectiveDynamicAccess$$anonfun$createInstanceFor$2.apply(DynamicAccess.scala:78)
    at scala.util.Try$.apply(Try.scala:192)
    at akka.actor.ReflectiveDynamicAccess.createInstanceFor(DynamicAccess.scala:73)
    at akka.actor.ReflectiveDynamicAccess$$anonfun$createInstanceFor$3.apply(DynamicAccess.scala:84)
    at akka.actor.ReflectiveDynamicAccess$$anonfun$createInstanceFor$3.apply(DynamicAccess.scala:84)
    at scala.util.Success.flatMap(Try.scala:231)
    at akka.actor.ReflectiveDynamicAccess.createInstanceFor(DynamicAccess.scala:84)
    at akka.actor.ActorSystemImpl.liftedTree1$1(ActorSystem.scala:585)
    at akka.actor.ActorSystemImpl.<init>(ActorSystem.scala:578)
    at akka.actor.ActorSystem$.apply(ActorSystem.scala:142)
    at akka.actor.ActorSystem$.apply(ActorSystem.scala:109)
    at org.apache.toree.boot.layer.StandardBareInitialization$class.createActorSystem(BareInitialization.scala:71)
    at org.apache.toree.Main$$anon$1.createActorSystem(Main.scala:35)
    at org.apache.toree.boot.layer.StandardBareInitialization$class.initializeBare(BareInitialization.scala:60)
    at org.apache.toree.Main$$anon$1.initializeBare(Main.scala:35)
    at org.apache.toree.boot.KernelBootstrap.initialize(KernelBootstrap.scala:72)
    at org.apache.toree.Main$delayedInit$body.apply(Main.scala:40)
    at scala.Function0$class.apply$mcV$sp(Function0.scala:34)
    at scala.runtime.AbstractFunction0.apply$mcV$sp(AbstractFunction0.scala:12)
    at scala.App$$anonfun$main$1.apply(App.scala:76)
    at scala.App$$anonfun$main$1.apply(App.scala:76)
    at scala.collection.immutable.List.foreach(List.scala:381)
    at scala.collection.generic.TraversableForwarder$class.foreach(TraversableForwarder.scala:35)
    at scala.App$class.main(App.scala:76)
    at org.apache.toree.Main$.main(Main.scala:24)
    at org.apache.toree.Main.main(Main.scala)
    at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
    at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62)
    at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
    at java.lang.reflect.Method.invoke(Method.java:498)
    at org.apache.spark.deploy.SparkSubmit$.org$apache$spark$deploy$SparkSubmit$$runMain(SparkSubmit.scala:736)
    at org.apache.spark.deploy.SparkSubmit$.doRunMain$1(SparkSubmit.scala:185)
    at org.apache.spark.deploy.SparkSubmit$.submit(SparkSubmit.scala:210)
    at org.apache.spark.deploy.SparkSubmit$.main(SparkSubmit.scala:124)
    at org.apache.spark.deploy.SparkSubmit.main(SparkSubmit.scala)
[W 03:15:26.738 NotebookApp] Timeout waiting for kernel_info reply from 94a63354-d294-4de7-a12c-2e05905e0c45

这个错误太可怕了，就是版本不对，因为spark2.1.0对应的是scala2.11版本的

所以要用下面的方式下载0.2.0版本

pip install https://dist.apache.org/repos/dist/dev/incubator/toree/0.2.0/snapshots/dev1/toree-pip/toree-0.2.0.dev1.tar.gz

后面就可以安装spark kernel了

jupyter toree install --interpreters=Scala --spark_home=/usr/local/Cellar/apache-spark/2.1.0/libexec --user --kernel_name=apache_toree --interpreters=PySpark,SparkR,Scala,SQL

其中spark_home指的是你的spark的安装目录，记住这个安装目录必须到spark中有python之前，比如我的spark中的python（spark中的python文件夹，不是我们自己装的那个）在 /usr/local/Cellar/apache-spark/2.1.0/libexec

查看结果

jupyter kernelspec list

安装成功

3.打开jupyter notebook查看效果

有这么多选项，可以快乐的用jupyter notebook进行spark了

以上这篇Jupyter notebook运行Spark+Scala教程就是小编分享给大家的全部内容了，希望能给大家一个参考，也希望大家多多支持我们。

解决jupyter notebook打不开无反应浏览器未启动的问题

问题: 这几天要看几个ipython格式的文件,但是jupyter notebook打开之后一直卡在命令行的界面那里(如图),然后就不动了,浏览器也没有预期地自动弹出来. 解决方法: 如果你的命令行显示的结果和我的一样,那你只需要把如图的地址,复制粘贴到浏览器的地址栏,就能打开jupyter notebook. 成功: 补充知识:打开jupyter notebook时浏览器不能自动弹出,网页不显示问题解决问题: 在windows下打开jupyter notebook时,卡在黑框,浏览器界面加载
解决Jupyter因卸载重装导致的问题修复

因为一些原因,卸载了Anaconda2的版本,转向3..发现Jupyter挂了.百思不得其解.后来了解到是因为内核找不到的问题导致的.这里整理了一下处理办法错误内容: Traceback (most recent call last): File "c:\program files\python36\lib\site-packages\tornado\web.py", line 1543, in _execute result = yield result File "c:
Window版下在Jupyter中编写TensorFlow的环境搭建

在疫情飘摇的2020年初,TensorFlow发布了2.1.0版本,本Python小白在安装过程中遇坑无数,幸得多年练就的百度功力终于解决,特记录下来以免后人跳坑. 准备工作 Python 3.6或3.7 .TensorFlow2.1.0版本将是最后一个支持Python 2的版本,但Python3.8还不支持,因此请自行从官网下载安装Python 3.6或3.7(我安装的是3.6). 一.搭建虚拟环境(以下顺序不要乱) virtualenv可以搭建虚拟且独立的Python环境,解决不同的工程依赖
jupyter notebook参数化运行python方式

Updates (2019.8.14 19:53)吃饭前用这个方法实战了一下,吃完回来一看好像不太行:跑完一组参数之后,到跑下一组参数时好像没有释放之占用的 GPU,于是 notebook 上的结果,后面好几条都报错说 cuda out of memory. 现在改成:将 notebook 中的代码写在一个 python 文件中,然后用命令行运行这个文件,比如: # autorun.py import os # print(os.getcwd()) over = [ # 之前手工改参数跑完的参数
jupyter notebook清除输出方式

在 jupyter notebook参数化运行python时,怕输出太多文件太大,想及时清除 notebook 的输出. 在别人代码里看到用 easydl 的 clear_output().调用很简单: from easydl import clear_output print('before') clear_output() # 清除输出 print('after') 查它源码:clear_output def clear_output(): """ clear outpu
Jupyter notebook运行Spark+Scala教程

今天在intellij调试spark的时候感觉每次有新的一段代码,都要重新跑一遍,如果用spark-shell,感觉也不是特别方便,如果能像python那样,使用jupyter notebook进行编程就很方便了,同时也适合代码展示,网上查了一下,试了一下,碰到了很多坑,有些是旧的版本,还有些是版本不同导致错误,这里就记录下来安装的过程. 1.运行环境硬件:Mac 事先装好:Jupyter notebook,spark2.1.0,scala 2.11.8 (这个版本很重要,关系到后面的安装)
基于Jupyter notebook搭建Spark集群开发环境的详细过程

一.概念介绍: 1.Sparkmagic:它是一个在Jupyter Notebook中的通过Livy服务器 Spark REST与远程Spark群集交互工作工具.Sparkmagic项目包括一组以多种语言交互运行Spark代码的框架和一些内核,可以使用这些内核将Jupyter Notebook中的代码转换在Spark环境运行. 2.Livy:它是一个基于Spark的开源REST服务,它能够通过REST的方式将代码片段或是序列化的二进制代码提交到Spark集群中去执行.它提供了以下这些基本功能:提
jupyter notebook运行命令显示[*](解决办法)

看下文章前我想先说一个问题遇到问题不要盲目的搜索答案,先看看终端提示什么错误,下面我总结一下会出现jupyter notebook运行命令,一直显示in[*]这种情况的解决办法: 了解提示符in[ ]几种状态的含义: in[ ] 程序未运行 in[*] 程序正在运行 in[编号] 程序正在运行 1.因为notebook未安装正确解决办法: 使用命令安装 pip3 install notebook 提示权限不够使用 sudo pip3 install notebook 2.因为jupyter包
使用jupyter notebook运行python和R的步骤

一个图形化的交互式运行环境,对于编程语言的学习和开发,特别是可视化方面,提供了极大的便利.比如在window上使用R语言进行绘图,在R语言自带的交互环境中,可以实时观测到代码的可视化效果,从而方便的进行参数调整. python语言基于命令行的交互式运行环境,可以方便的测试和运行简单代码,但是对于可视化的支持不是很友好,为此,有开发人眼开发出了ipython这一加强版的交互式运行环境,在ipython的基础上,又进一步打造出了jupyter notebook这一强大的交互式运行环境. jupyte
Jupyter Notebook运行JavaScript的方法

后面也加了怎么在 VSC 中使用 Jupyter Notebook-- 安装 Anaconda 安装部分我是直接使用 Anaconda 安装的,这个下载 msi 就可以了,没有什么难的. 遇到报错,以及配置 Anaconda 报错信息如下: D:\>jupyter notebook Traceback (most recent call last): File "C:\ProgramData\Anaconda3\Scripts\jupyter-notebook-script.py"
jupyter notebook运行代码没反应且in[ ]没有*

前言: 在刚解决jupyter notebook打不开网页的问题后,我迫不及待地写了Python的代码,看看运行的结果如何.于是,我输入了print("Hello, world"),期待地点了一下运行,结果它直接跳到下一行了......也没有任何的输出,然后右上角显示Python3 的是实心的.显示内核正忙,然后我就开始尝试各种方法了,网上大部分的方法都是解决in[*]的问题,但是我的in[ ]里面是一点东西都没有,既没有数字也没有“*”.(因为是已经解决完了,所以没有事发的原图,还请
Jupyter Notebook运行代码无反应问题及解决方法

目录 Jupyter Notebook运行代码无反应 jupyter notebook 某个cell 一直在运行总结 Jupyter Notebook运行代码无反应在学习人脸识别知识的过程中需要用到Anaconda .Jupyter Notebook. 我在启动Jupyter Notebook后,新建代码运行无反应. 从页面上也观察不出来是什么问题,后来在Anaconda Pormpt中启动Jupyter Notebook,我一开始还以为是自动启动的,傻傻的等它自动运行... 结果是在浏览器
TensorFlow安装及jupyter notebook配置方法

tensorflow利用anaconda在ubuntu下安装方法及jupyter notebook运行目录及远程访问配置 Ubuntu下安装Anaconda bash ~/file_path/file_name.sh 出现许可后可按Ctrl+C跳过,yes同意. 安装完成后询问是否加入path路径,亦可自行修改文件内容关闭命令台重开 python -V 可查看是否安装成功修改anaconda的python版本,以符合tf要求 conda install python=3.5 Anaconda
jupyter notebook 多环境conda kernel配置方式

一直记不住在jupyter notebook配置多环境编译器技巧,今总结于此,也希望对其他小伙伴有所帮助,如果有用请点赞! 1.对windows用户,win+R,输入cmd进去进入命令行,激活环境: 2.首先,确定自己是否安装包'ipykernel',若是没有安装,则进行安装:已安装进行下一步. 3.然后输入命令: python -m ipykernel install --user --name deeplearningproject --display-name "deeplearningp
使用jupyter notebook将文件保存为Markdown,HTML等文件格式

在jupyter notebook运行的页面内,找到如下图片下载格式,选择相应下载格式就可下载保存到本地文件. 补充知识:jupyter notebook的project管理--.ipynb中调用.py文件做课题和数据挖掘竞赛用python比较多,比较常用的是在服务器终端输入jupyter notebook --ip 0.0.0.0,打开jupyter notebook的一个后台,并在本地windows电脑浏览器进入该服务端写python代码. 将.ipynb和.py结合,可以使得jupyte

Jupyter notebook运行Spark+Scala教程

相关推荐

随机推荐