Pyspark 线性回归梯度下降交叉验证知识点详解

我正在尝试在 pyspark 中的 SGD 模型上执行交叉验证,我正在使用pyspark.mllib.regression,ParamGridBuilder和CrossValidator都来自pyspark.ml.tuning库的LinearRegressionWithSGD。

在 Spark 网站上跟踪文件资料之后,我希望运行此方法可以正常工作

资料参考:https://spark.apache.org/docs/2.1.0/ml-tuning.html

lr = LinearRegressionWithSGD()
pipeline=Pipeline(stages=[lr])

paramGrid = ParamGridBuilder()\
    .addGrid(lr.stepSize, Array(0.1, 0.01))\
    .build()

crossval = CrossValidator(estimator=pipeline,estimatorParamMaps= paramGrid,
                         evaluator=RegressionEvaluator(),
                         numFolds=10)

但是LinearRegressionWithSGD()没有属性stepSize(也没有运气尝试过其他人)。

我可以将 lr 设置为LinearRegression,但是我无法在模型中使用 SGD 并进行交叉验证。

斯卡拉中有kFold方法,但我不确定如何从 pyspark 访问该方法

解决方案

您可以使用LinearRegressionWithSGD中的step参数来定义步长,但由于您正在混合不兼容的库,因此这将使代码无法正常工作。不幸的是,我不知道如何使用SGD优化对ml库进行交叉验证,我想知道自己,但是您正在混合使用pyspark.ml和pyspark.mllib库。具体来说,您不能将LinearRegressionWithSGD与pyspark.ml库一起使用。您必须使用pyspark.ml.regression.LinearRegression。

好消息是您可以将pyspark.ml.regression.LinearRegression的setsolver属性设置为使用'gd'。因此,您可能可以将'gd'优化器的参数设置为以SGD运行,但是我不确定求解器文档在哪里或如何设置求解器属性(例如批大小)。该api显示了调用Param()的LinearRegression对象,但是我不确定它是否使用pyspark.mllib优化器。如果有人知道如何设置求解器属性,则可以通过允许您将Pipeline,ParamGridBuilder和CrossValidation ml软件包用于LinearRegression进行模型选择,并利用SGD优化进行参数调整来回答您的问题。

到此这篇关于Pyspark 线性回归梯度下降交叉验证知识点详解的文章就介绍到这了,更多相关Pyspark 线性回归梯度下降交叉验证内容请搜索我们以前的文章或继续浏览下面的相关文章希望大家以后多多支持我们!

(0)

相关推荐

  • Pyspark 线性回归梯度下降交叉验证知识点详解

    我正在尝试在 pyspark 中的 SGD 模型上执行交叉验证,我正在使用pyspark.mllib.regression,ParamGridBuilder和CrossValidator都来自pyspark.ml.tuning库的LinearRegressionWithSGD. 在 Spark 网站上跟踪文件资料之后,我希望运行此方法可以正常工作 资料参考:https://spark.apache.org/docs/2.1.0/ml-tuning.html lr = LinearRegressi

  • Linux 远程管理及sshd服务验证知识点详解

    一.SSH远程管理 SSH定义 SSH(Secure Shell)是一种安全通道协议,主要用来实现字符界面的远程登录.远程复制等功能. SSH协议对通信双方的数据传输进行了加密处理,其中包括用户登录时输入的用户口令.因此SSH协议具有很好的安全性. SSH优点 数据传输是加密的,可以防止信息泄漏 数据传输是压缩的,可以提高传输速度 SSH配置文件 sshd 服务的默认配置文件是/etc/ssh/sshd_config ssh_config和sshd_config都是ssh服务器的配置文件 二者区

  • SpringMVC实现表单验证功能详解

    本章节内容很丰富,主要有基本的表单操作,数据的格式化,数据的校验,以及提示信息的国际化等实用技能. 首先看效果图 项目结构图 接下来用代码重点学习SpringMVC的表单操作,数据格式化,数据校验以及错误提示信息国际化.请读者将重点放在UserController.java,User.java,input.jsp三个文件中. maven 项目必不可少的pom.xml文件.里面有该功能需要的所有jar包. <?xml version="1.0" encoding="UTF

  • pytorch的梯度计算以及backward方法详解

    基础知识 tensors: tensor在pytorch里面是一个n维数组.我们可以通过指定参数reuqires_grad=True来建立一个反向传播图,从而能够计算梯度.在pytorch中一般叫做dynamic computation graph(DCG)--即动态计算图. import torch import numpy as np # 方式一 x = torch.randn(2,2, requires_grad=True) # 方式二 x = torch.autograd.Variabl

  • mysql MGR 单主多主模式切换知识点详解

    主库执行 CREATE DATABASE test CHARACTER SET utf8 COLLATE utf8_general_ci; use test; create table if not exists h1 (id int(10) PRIMARY KEY AUTO_INCREMENT,name varchar(50) NOT NULL); insert into test.h1 values(1,"wang"),(2,"guo"),(3,"ya

  • JS内置对象和Math对象知识点详解

    Math对象 <script> // Math数学对象 不是一个构造函数 ,所以我们不需要new 来调用 而是直接使用里面的属性和方法即可 console.log(Math.PI); // 一个属性 圆周率 console.log(Math.max(1, 99, 3)); // 99 console.log(Math.max(-1, -10)); // -1 console.log(Math.max(1, 99, 'pink老师')); // NaN console.log(Math.max(

  • k8s编排之StatefulSet知识点详解二

    目录 StatefulSet 对存储状态的管理机制 第一步:定义一个 PVC,声明想要的 Volume 的属性 第二步:在应用的 Pod 中,声明使用这个 PVC 常见的 PV 对象的 YAML 文件 StatefulSet 对存储状态的管理机制 这个机制,主要使用的是一个叫作 Persistent Volume Claim 的功能. 要在一个 Pod 里声明 Volume,只要在 Pod 里加上 spec.volumes 字段即可.然后,你就可以在这个字段里定义一个具体类型的 Volume 了

  • Angular4表单验证代码详解

     背景: 最近在itoo页面调整的时候,发现页面表单或者是文本框没有做基本的判断操作,所以着手demo一篇,希望对大家有帮助!! -------------------------------------------------------------------------------- 1.创建表单组件: ng g c login1 2.1单规则验证: <label>用户名:</label> <input type="text" #userNameRe

  • Angular表单验证实例详解

    表单验证 我去,我感觉我这个人其实还是一个很傻逼的一个人,老是因为拼错了一个单词或者怎么样就浪费我很长时间,这样真的不行不行,要正确对待这个问题,好了,说正题吧,angular也有表单验证minlength,maxlength,required呀这些个东西,还有也支持h5的那些验证,h5的那些验证,就是type啦,type='email',number,url呀这些,然后现在要用angular来验证,可以定义样式哈,不错,然后怎么验证呢,好的上代码 <!DOCTYPE html> <ht

  • 微信小程序 消息推送php服务器验证实例详解

    微信小程序 消息推送php服务器验证实例详解 微信文档(靠下有个"接入指引"):https://mp.weixin.qq.com/debug/wxadoc/dev/api/custommsg/callback_help.html 设置页面("设置">>"开发设置"): https://mp.weixin.qq.com/wxopen/initprofile?action=home&lang=zh_CN 1.设置服务器域名 比如:

随机推荐