AUC计算方法与Python实现代码
-AUC计算方法
-AUC的Python实现方式
AUC计算方法
AUC是ROC曲线下的面积,它是机器学习用于二分类模型的评价指标,AUC反应的是模型对样本的排序能力。它的统计意义是从所有正样本随机抽取一个正样本,从所有负样本随机抽取一个负样本,当前score使得正样本排在负样本前面的概率。
AUC的计算主要以下几种方法:
1、计算ROC曲线下的面积。这是比较直接的一种方法,可以近似计算ROC曲线一个个小梯形的面积。几乎不会用这种方法
2、从AUC统计意义去计算。所有的正负样本对中,正样本排在负样本前面占样本对数的比例,即这个概率值。
具体的做法就是它也是首先对prob score从大到小排序,然后令最大prob score对应的sample 的rank为n,第二大score对应sample的rank为n-1,以此类推。
然后把所有的正类样本的rank相加,再减去M-1种两个正样本组合的情况。
得到的就是所有的样本中有多少对正类样本的score大于负类样本的score。
最后再除以M×N。
公式如下:
AUC的Python实现
通过上面方法二的公式,AUC计算的Python实现如下:
def calAUC(prob,labels): f = list(zip(prob,labels)) rank = [values2 for values1,values2 in sorted(f,key=lambda x:x[0])] rankList = [i+1 for i in range(len(rank)) if rank[i]==1] posNum = 0 negNum = 0 for i in range(len(labels)): if(labels[i]==1): posNum+=1 else: negNum+=1 auc = 0 auc = (sum(rankList)- (posNum*(posNum+1))/2)/(posNum*negNum) print(auc) return auc
其中输入prob是得到的概率值,labels是分类的标签(1,-1)
以上这篇AUC计算方法与Python实现代码就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持我们。
相关推荐
-
利用Python画ROC曲线和AUC值计算
前言 ROC(Receiver Operating Characteristic)曲线和AUC常被用来评价一个二值分类器(binary classifier)的优劣.这篇文章将先简单的介绍ROC和AUC,而后用实例演示如何python作出ROC曲线图以及计算AUC. AUC介绍 AUC(Area Under Curve)是机器学习二分类模型中非常常用的评估指标,相比于F1-Score对项目的不平衡有更大的容忍性,目前常见的机器学习库中(比如scikit-learn)一般也都是集成该指标的计算,但
-
利用python画出AUC曲线的实例
以load_breast_cancer数据集为例,模型细节不重要,重点是画AUC的代码. 直接上代码: from sklearn.datasets import load_breast_cancer from sklearn import metrics from sklearn.ensemble import RandomForestClassifier from sklearn.model_selection import train_test_split import pylab as p
-
python计算auc指标实例
1.安装scikit-learn 1.1Scikit-learn 依赖 Python (>= 2.6 or >= 3.3), NumPy (>= 1.6.1), SciPy (>= 0.9). 分别查看上述三个依赖的版本, python -V 结果:Python 2.7.3 python -c 'import scipy; print scipy.version.version' scipy版本结果:0.9.0 python -c "import numpy; print
-
AUC计算方法与Python实现代码
-AUC计算方法 -AUC的Python实现方式 AUC计算方法 AUC是ROC曲线下的面积,它是机器学习用于二分类模型的评价指标,AUC反应的是模型对样本的排序能力.它的统计意义是从所有正样本随机抽取一个正样本,从所有负样本随机抽取一个负样本,当前score使得正样本排在负样本前面的概率. AUC的计算主要以下几种方法: 1.计算ROC曲线下的面积.这是比较直接的一种方法,可以近似计算ROC曲线一个个小梯形的面积.几乎不会用这种方法 2.从AUC统计意义去计算.所有的正负样本对中,正样本排在负
-
数据挖掘之Apriori算法详解和Python实现代码分享
关联规则挖掘(Association rule mining)是数据挖掘中最活跃的研究方法之一,可以用来发现事情之间的联系,最早是为了发现超市交易数据库中不同的商品之间的关系.(啤酒与尿布) 基本概念 1.支持度的定义:support(X-->Y) = |X交Y|/N=集合X与集合Y中的项在一条记录中同时出现的次数/数据记录的个数.例如:support({啤酒}-->{尿布}) = 啤酒和尿布同时出现的次数/数据记录数 = 3/5=60%. 2.自信度的定义:confidence(X-->
-
python快速排序代码实例
一. 算法描述: 1.先从数列中取出一个数作为基准数.2.分区过程,将比这个数大的数全放到它的右边,小于或等于它的数全放到它的左边.3.再对左右区间重复第二步,直到各区间只有一个数. 二.python快速排序代码 复制代码 代码如下: #!/usr/bin/python# -*- coding: utf-8 -*- def sub_sort(array,low,high): key = array[low] while low < high: while low <
-
python 统计代码行数简单实例
python 统计代码行数简单实例 送测的时候,发现需要统计代码行数 于是写了个小程序统计自己的代码的行数. #calclate_code_lines.py import os def afileline(f_path): res = 0 f = open(f_path) for lines in f: if lines.split(): res += 1 return res if __name__=='__main__': host = 'E:'+os.sep+'develop'+os.s
-
K-近邻算法的python实现代码分享
k-近邻算法概述: 所谓k-近邻算法KNN就是K-Nearest neighbors Algorithms的简称,它采用测量不同特征值之间的距离方法进行分类 用官方的话来说,所谓K近邻算法,即是给定一个训练数据集,对新的输入实例,在训练数据集中找到与该实例最邻近的K个实例(也就是上面所说的K个邻居), 这K个实例的多数属于某个类,就把该输入实例分类到这个类中. k-近邻算法分析 优点:精度高.对异常值不敏感.无数据输入假定. 缺点:计算复杂度高.空间复杂度高. 适用数据范围:数值型和标称型 k-
-
单链表反转python实现代码示例
单链表的反转可以使用循环,也可以使用递归的方式 1.循环反转单链表 循环的方法中,使用pre指向前一个结点,cur指向当前结点,每次把cur->next指向pre即可. 代码: class ListNode: def __init__(self,x): self.val=x; self.next=None; def nonrecurse(head): #循环的方法反转链表 if head is None or head.next is None: return head; pre=None; c
-
python获取代码运行时间的实例代码
有的时候,操作大文件,或者取数,要很久,我们给脚本首尾添加一段代码就知道,这段代码整体的大致运行时间了. import time start =time.clock() #中间写上代码块 end = time.clock() print('Running time: %s Seconds'%(end-start)) 运行结果会是这样: In [2]: %run F:\\celueji\\python_script\\sheetcopy_RuleRepor.py ...: Running time
-
用python统计代码行的示例(包括空行和注释)
实例如下所示: import os import string path = "/Users/U/workspace/python learning/show-me-the-code/0007/test/" dir = os.listdir(path) def count(file): total = 0 #总行数 countPound = 0 #注释行数 countBlank = 0 #空行数 line = open(file,'r',encoding='utf-8') #打开文件,
-
python实现代码统计程序
本文实例为大家分享了python实现代码统计程序的具体代码,供大家参考,具体内容如下 # encoding="utf-8" """ 统计代码行数 """ import sys import os def count_file_line(path): """统计文件的有效行数""" countLine = 0 # 设置一个标志位,当遇到以""&quo
-
Python实现代码统计工具
本文实例为大家分享了Python实现代码统计工具的具体代码,供大家参考,具体内容如下 思路:首先获取所有文件,然后统计每个文件中代码的行数,最后将行数相加. 实现的功能: 统计每个文件的行数: 统计总行数: 支持指定统计文件类型,排除不想统计的文件类型: 排除空行: 排除注释行 import os import sys import os.path #for i in sys.argv: # print (i) # 判断单个文件的代码行数 def count_file_lines(file_pa
随机推荐
- python采集博客中上传的QQ截图文件
- Go语言计算指定年月天数的方法
- jQuery EasyUI API 中文文档 - Tabs标签页/选项卡
- Swift操作Quartz 2D进行简单的绘图与坐标变换的教程
- 使用JavaScript实现链表的数据结构的代码
- sphinx增量索引的一个问题
- 浅谈js控制li标签排序问题 js调用php函数的方法
- php实现文件下载更能介绍
- 解决phpmyadmin中文乱码问题。。。
- 修改SQL-SERVER数据库表结构的SQL命令附sql命令行修改数据库
- Linux/window下怎样查看某个端口被哪个程序/进程占用
- 基于Jquery与WebMethod投票功能实现代码
- addEventListener()与removeEventListener()解析
- 二级连动的另一个不错的实现方法
- java web图片上传和文件上传实例详解
- Handler与Android多线程详解
- C#中重载与重写区别分析
- javascript中new Array()和var arr=[]用法区别
- Python与人工神经网络:使用神经网络识别手写图像介绍
- python数据封装json格式数据