基于Spark实现随机森林代码

本文实例为大家分享了基于Spark实现随机森林的具体代码,供大家参考,具体内容如下

public class RandomForestClassficationTest extends TestCase implements Serializable
{

  /**
  *
  */
  private static final long serialVersionUID = 7802523720751354318L;

  class PredictResult implements Serializable{
    /**
    *
    */
    private static final long serialVersionUID = -168308887976477219L;
    double label;
    double prediction;

    public PredictResult(double label,double prediction){
    this.label = label;
    this.prediction = prediction;
    }

    @Override
    public String toString(){
      return this.label + " : " + this.prediction ;
    }
  }

  public void test_randomForest() throws JAXBException{

    SparkConf sparkConf = new SparkConf();
    sparkConf.setAppName("RandomForest");
    sparkConf.setMaster("local");

    SparkContext sc = new SparkContext(sparkConf);
    String dataPath = RandomForestClassficationTest.class.getResource("/").getPath() + "/sample_libsvm_data.txt";

    RDD dataSet = MLUtils.loadLibSVMFile(sc, dataPath);
    RDD[] rddList = dataSet.randomSplit(new double[]{0.7,0.3},1);

    RDD trainingData = rddList[0];
    RDD testData = rddList[1];

    ClassTag labelPointClassTag = trainingData.elementClassTag();

    JavaRDD trainingJavaData = new JavaRDD(trainingData,labelPointClassTag);

    int numClasses = 2;
    Map categoricalFeatureInfos = new HashMap();
    int numTrees = 3;
    String featureSubsetStrategy = "auto";
    String impurity = "gini";
    int maxDepth = 4;
    int maxBins = 32;

    /**
    * 1 numClasses分类个数为2
    * 2 numTrees 表示的是随机森林中树的个数
    * 3 featureSubsetStrategy
    * 4
    */
    final RandomForestModel model = RandomForest.trainClassifier(trainingJavaData,
    numClasses,
    categoricalFeatureInfos,
    numTrees,
    featureSubsetStrategy,
    impurity,
    maxDepth,
    maxBins,
    1);

    JavaRDD testJavaData = new JavaRDD(testData,testData.elementClassTag());

    JavaRDD predictRddResult = testJavaData.map(new Function(){

    /**
    *
    */
    private static final long serialVersionUID = 1L;

    public PredictResult call(LabeledPoint point) throws Exception {
      // TODO Auto-generated method stub
      double pointLabel = point.label();
      double prediction = model.predict(point.features());
      PredictResult result = new PredictResult(pointLabel,prediction);
      return result;
    }

    });

    List predictResultList = predictRddResult.collect();
    for(PredictResult result:predictResultList){
      System.out.println(result.toString());
    }

      System.out.println(model.toDebugString());
    }
}

得到的随机森林的展示结果如下:

TreeEnsembleModel classifier with 3 trees

Tree 0:
If (feature 435 <= 0.0)
If (feature 516 <= 0.0)
Predict: 0.0
Else (feature 516 > 0.0)
Predict: 1.0
Else (feature 435 > 0.0)
Predict: 1.0
Tree 1:
If (feature 512 <= 0.0)
Predict: 1.0
Else (feature 512 > 0.0)
Predict: 0.0
Tree 2:
If (feature 377 <= 1.0)
Predict: 0.0
Else (feature 377 > 1.0)
If (feature 455 <= 0.0)
Predict: 1.0
Else (feature 455 > 0.0)
Predict: 0.0

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持我们。

(0)

相关推荐

  • java实现随机森林RandomForest的示例代码

    随机森林是由多棵树组成的分类或回归方法.主要思想来源于Bagging算法,Bagging技术思想主要是给定一弱分类器及训练集,让该学习算法训练多轮,每轮的训练集由原始训练集中有放回的随机抽取,大小一般跟原始训练集相当,这样依次训练多个弱分类器,最终的分类由这些弱分类器组合,对于分类问题一般采用多数投票法,对于回归问题一般采用简单平均法.随机森林在bagging的基础上,每个弱分类器都是决策树,决策树的生成过程中中,在属性的选择上增加了依一定概率选择属性,在这些属性中选择最佳属性及分割点,传统做法

  • 基于Spark实现随机森林代码

    本文实例为大家分享了基于Spark实现随机森林的具体代码,供大家参考,具体内容如下 public class RandomForestClassficationTest extends TestCase implements Serializable { /** * */ private static final long serialVersionUID = 7802523720751354318L; class PredictResult implements Serializable{ /

  • 基于JavaScript伪随机正态分布代码实例

    这篇文章主要介绍了基于JavaScript伪随机正态分布代码实例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 在游戏开发中经常遇到随机奖励的情况,一般会采取先生成数组,再一个一个取的方式发随机奖励. 下面是js测试正态分布代码: <!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8"> <ti

  • Python实现随机森林RF模型超参数的优化详解

    目录 1 代码分段讲解 1.1 数据与模型准备 1.2 超参数范围给定 1.3 超参数随机匹配择优 1.4 超参数遍历匹配择优 1.5 模型运行与精度评定 2 完整代码 本文介绍基于Python的随机森林(Random Forest,RF)回归代码,以及模型超参数(包括决策树个数与最大深度.最小分离样本数.最小叶子节点样本数.最大分离特征数等)自动优化的代码. 本文是在上一篇文章Python实现随机森林RF并对比自变量的重要性的基础上完成的,因此本次仅对随机森林模型超参数自动择优部分的代码加以详

  • python实现决策树、随机森林的简单原理

    本文申明:此文为学习记录过程,中间多处引用大师讲义和内容. 一.概念 决策树(Decision Tree)是一种简单但是广泛使用的分类器.通过训练数据构建决策树,可以高效的对未知的数据进行分类.决策数有两大优点:1)决策树模型可以读性好,具有描述性,有助于人工分析:2)效率高,决策树只需要一次构建,反复使用,每一次预测的最大计算次数不超过决策树的深度. 看了一遍概念后,我们先从一个简单的案例开始,如下图我们样本: 对于上面的样本数据,根据不同特征值我们最后是选择是否约会,我们先自定义的一个决策树

  • Spark随机森林实现票房预测

    前言 最近一段时间都在处理电影领域的数据, 而电影票房预测是电影领域数据建模中的一个重要模块, 所以我们针对电影数据做了票房预测建模. 前期工作 一开始的做法是将这个问题看待成回归的问题, 采用GBDT回归树去做. 训练了不同残差的回归树, 然后做集成学习. 考虑的影响因子分别有电影的类型, 豆瓣评分, 导演的 影响力, 演员的影响力, 电影的出品公司. 不过预测的结果并不是那么理想, 准确率为真实值的0.3+/-区间情况下的80%, 且波动性较大, 不容易解析. 后期的改进 总结之前的失败经验

  • Python实现孤立随机森林算法的示例代码

    目录 1 简介 2 孤立随机森林算法 2.1 算法概述 2.2 原理介绍 2.3 算法步骤 3 参数讲解 4 Python代码实现 5 结果 1 简介 孤立森林(isolation Forest)是一种高效的异常检测算法,它和随机森林类似,但每次选择划分属性和划分点(值)时都是随机的,而不是根据信息增益或基尼指数来选择. 2 孤立随机森林算法 2.1 算法概述 Isolation,意为孤立/隔离,是名词,其动词为isolate,forest是森林,合起来就是“孤立森林”了,也有叫“独异森林”,好

  • 基于Python实现随机点名系统的示例代码

    目录 效果展示 代码展示 导入模块 子线程调用 应用初始化信息 姓名信息布局 开始信息布局 数据信息布局 整体布局 运行 大家好,我是了不起! 在某些难以抉择得时候,我们经常要用外力来帮助我们做出选择 比如,梁山出征方腊前沙场点兵,挑选先锋的场景 这个时候,有一个随机点名系统就非常好啦,毕竟我水泊梁山的名号~ 效果展示 创建一个这样的文件夹,然后把要随机点名的名字写在里面 导入后,这里就显示你导入了多少人员信息 点击开始点名后,会随机从导入名字里挑选一位幸运儿~ 效果大概就是这样,下面我们来看看

  • Spark实现K-Means算法代码示例

    K-Means算法是一种基于距离的聚类算法,采用迭代的方法,计算出K个聚类中心,把若干个点聚成K类. MLlib实现K-Means算法的原理是,运行多个K-Means算法,每个称为run,返回最好的那个聚类的类簇中心.初始的类簇中心,可以是随机的,也可以是KMean||得来的,迭代达到一定的次数,或者所有run都收敛时,算法就结束. 用Spark实现K-Means算法,首先修改pom文件,引入机器学习MLlib包: <dependency> <groupId>org.apache.

  • Python决策树和随机森林算法实例详解

    本文实例讲述了Python决策树和随机森林算法.分享给大家供大家参考,具体如下: 决策树和随机森林都是常用的分类算法,它们的判断逻辑和人的思维方式非常类似,人们常常在遇到多个条件组合问题的时候,也通常可以画出一颗决策树来帮助决策判断.本文简要介绍了决策树和随机森林的算法以及实现,并使用随机森林算法和决策树算法来检测FTP暴力破解和POP3暴力破解,详细代码可以参考: https://github.com/traviszeng/MLWithWebSecurity 决策树算法 决策树表现了对象属性和

随机推荐