基于Spark实现随机森林代码

2026-05-09 10:03:52

本文实例为大家分享了基于Spark实现随机森林的具体代码，供大家参考，具体内容如下

public class RandomForestClassficationTest extends TestCase implements Serializable
{

  /**
  *
  */
  private static final long serialVersionUID = 7802523720751354318L;

  class PredictResult implements Serializable{
    /**
    *
    */
    private static final long serialVersionUID = -168308887976477219L;
    double label;
    double prediction;

    public PredictResult(double label,double prediction){
    this.label = label;
    this.prediction = prediction;
    }

    @Override
    public String toString(){
      return this.label + " : " + this.prediction ;
    }
  }

  public void test_randomForest() throws JAXBException{

    SparkConf sparkConf = new SparkConf();
    sparkConf.setAppName("RandomForest");
    sparkConf.setMaster("local");

    SparkContext sc = new SparkContext(sparkConf);
    String dataPath = RandomForestClassficationTest.class.getResource("/").getPath() + "/sample_libsvm_data.txt";

    RDD dataSet = MLUtils.loadLibSVMFile(sc, dataPath);
    RDD[] rddList = dataSet.randomSplit(new double[]{0.7,0.3},1);

    RDD trainingData = rddList[0];
    RDD testData = rddList[1];

    ClassTag labelPointClassTag = trainingData.elementClassTag();

    JavaRDD trainingJavaData = new JavaRDD(trainingData,labelPointClassTag);

    int numClasses = 2;
    Map categoricalFeatureInfos = new HashMap();
    int numTrees = 3;
    String featureSubsetStrategy = "auto";
    String impurity = "gini";
    int maxDepth = 4;
    int maxBins = 32;

    /**
    * 1 numClasses分类个数为2
    * 2 numTrees 表示的是随机森林中树的个数
    * 3 featureSubsetStrategy
    * 4
    */
    final RandomForestModel model = RandomForest.trainClassifier(trainingJavaData,
    numClasses,
    categoricalFeatureInfos,
    numTrees,
    featureSubsetStrategy,
    impurity,
    maxDepth,
    maxBins,
    1);

    JavaRDD testJavaData = new JavaRDD(testData,testData.elementClassTag());

    JavaRDD predictRddResult = testJavaData.map(new Function(){

    /**
    *
    */
    private static final long serialVersionUID = 1L;

    public PredictResult call(LabeledPoint point) throws Exception {
      // TODO Auto-generated method stub
      double pointLabel = point.label();
      double prediction = model.predict(point.features());
      PredictResult result = new PredictResult(pointLabel,prediction);
      return result;
    }

    });

    List predictResultList = predictRddResult.collect();
    for(PredictResult result:predictResultList){
      System.out.println(result.toString());
    }

      System.out.println(model.toDebugString());
    }
}

得到的随机森林的展示结果如下：

TreeEnsembleModel classifier with 3 trees

Tree 0:
If (feature 435 <= 0.0)
If (feature 516 <= 0.0)
Predict: 0.0
Else (feature 516 > 0.0)
Predict: 1.0
Else (feature 435 > 0.0)
Predict: 1.0
Tree 1:
If (feature 512 <= 0.0)
Predict: 1.0
Else (feature 512 > 0.0)
Predict: 0.0
Tree 2:
If (feature 377 <= 1.0)
Predict: 0.0
Else (feature 377 > 1.0)
If (feature 455 <= 0.0)
Predict: 1.0
Else (feature 455 > 0.0)
Predict: 0.0

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持我们。

java实现随机森林RandomForest的示例代码

随机森林是由多棵树组成的分类或回归方法.主要思想来源于Bagging算法,Bagging技术思想主要是给定一弱分类器及训练集,让该学习算法训练多轮,每轮的训练集由原始训练集中有放回的随机抽取,大小一般跟原始训练集相当,这样依次训练多个弱分类器,最终的分类由这些弱分类器组合,对于分类问题一般采用多数投票法,对于回归问题一般采用简单平均法.随机森林在bagging的基础上,每个弱分类器都是决策树,决策树的生成过程中中,在属性的选择上增加了依一定概率选择属性,在这些属性中选择最佳属性及分割点,传统做法
基于Spark实现随机森林代码

本文实例为大家分享了基于Spark实现随机森林的具体代码,供大家参考,具体内容如下 public class RandomForestClassficationTest extends TestCase implements Serializable { /** * */ private static final long serialVersionUID = 7802523720751354318L; class PredictResult implements Serializable{ /
基于JavaScript伪随机正态分布代码实例

这篇文章主要介绍了基于JavaScript伪随机正态分布代码实例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下在游戏开发中经常遇到随机奖励的情况,一般会采取先生成数组,再一个一个取的方式发随机奖励. 下面是js测试正态分布代码: <!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8"> <ti
Python实现随机森林RF模型超参数的优化详解

目录 1 代码分段讲解 1.1 数据与模型准备 1.2 超参数范围给定 1.3 超参数随机匹配择优 1.4 超参数遍历匹配择优 1.5 模型运行与精度评定 2 完整代码本文介绍基于Python的随机森林(Random Forest,RF)回归代码,以及模型超参数(包括决策树个数与最大深度.最小分离样本数.最小叶子节点样本数.最大分离特征数等)自动优化的代码. 本文是在上一篇文章Python实现随机森林RF并对比自变量的重要性的基础上完成的,因此本次仅对随机森林模型超参数自动择优部分的代码加以详
python实现决策树、随机森林的简单原理

本文申明:此文为学习记录过程,中间多处引用大师讲义和内容. 一.概念决策树(Decision Tree)是一种简单但是广泛使用的分类器.通过训练数据构建决策树,可以高效的对未知的数据进行分类.决策数有两大优点:1)决策树模型可以读性好,具有描述性,有助于人工分析:2)效率高,决策树只需要一次构建,反复使用,每一次预测的最大计算次数不超过决策树的深度. 看了一遍概念后,我们先从一个简单的案例开始,如下图我们样本: 对于上面的样本数据,根据不同特征值我们最后是选择是否约会,我们先自定义的一个决策树
Spark随机森林实现票房预测

前言最近一段时间都在处理电影领域的数据, 而电影票房预测是电影领域数据建模中的一个重要模块, 所以我们针对电影数据做了票房预测建模. 前期工作一开始的做法是将这个问题看待成回归的问题, 采用GBDT回归树去做. 训练了不同残差的回归树, 然后做集成学习. 考虑的影响因子分别有电影的类型, 豆瓣评分, 导演的影响力, 演员的影响力, 电影的出品公司. 不过预测的结果并不是那么理想, 准确率为真实值的0.3+/-区间情况下的80%, 且波动性较大, 不容易解析. 后期的改进总结之前的失败经验
Python实现孤立随机森林算法的示例代码

目录 1 简介 2 孤立随机森林算法 2.1 算法概述 2.2 原理介绍 2.3 算法步骤 3 参数讲解 4 Python代码实现 5 结果 1 简介孤立森林(isolation Forest)是一种高效的异常检测算法,它和随机森林类似,但每次选择划分属性和划分点(值)时都是随机的,而不是根据信息增益或基尼指数来选择. 2 孤立随机森林算法 2.1 算法概述 Isolation,意为孤立/隔离,是名词,其动词为isolate,forest是森林,合起来就是“孤立森林”了,也有叫“独异森林”,好
基于Python实现随机点名系统的示例代码

目录效果展示代码展示导入模块子线程调用应用初始化信息姓名信息布局开始信息布局数据信息布局整体布局运行大家好,我是了不起! 在某些难以抉择得时候,我们经常要用外力来帮助我们做出选择比如,梁山出征方腊前沙场点兵,挑选先锋的场景这个时候,有一个随机点名系统就非常好啦,毕竟我水泊梁山的名号~ 效果展示创建一个这样的文件夹,然后把要随机点名的名字写在里面导入后,这里就显示你导入了多少人员信息点击开始点名后,会随机从导入名字里挑选一位幸运儿~ 效果大概就是这样,下面我们来看看
Spark实现K-Means算法代码示例

K-Means算法是一种基于距离的聚类算法,采用迭代的方法,计算出K个聚类中心,把若干个点聚成K类. MLlib实现K-Means算法的原理是,运行多个K-Means算法,每个称为run,返回最好的那个聚类的类簇中心.初始的类簇中心,可以是随机的,也可以是KMean||得来的,迭代达到一定的次数,或者所有run都收敛时,算法就结束. 用Spark实现K-Means算法,首先修改pom文件,引入机器学习MLlib包: <dependency> <groupId>org.apache.
Python决策树和随机森林算法实例详解

本文实例讲述了Python决策树和随机森林算法.分享给大家供大家参考,具体如下: 决策树和随机森林都是常用的分类算法,它们的判断逻辑和人的思维方式非常类似,人们常常在遇到多个条件组合问题的时候,也通常可以画出一颗决策树来帮助决策判断.本文简要介绍了决策树和随机森林的算法以及实现,并使用随机森林算法和决策树算法来检测FTP暴力破解和POP3暴力破解,详细代码可以参考: https://github.com/traviszeng/MLWithWebSecurity 决策树算法决策树表现了对象属性和

基于Spark实现随机森林代码

相关推荐

随机推荐