Python实现计算AUC的三种方式总结

目录
  • 介绍
  • 实现代码
  • 方法补充

介绍

AUC(Area Under Curve)被定义为ROC曲线下与坐标轴围成的面积,显然这个面积的数值不会大于1。又由于ROC曲线一般都处于y=x这条直线的上方,所以AUC的取值范围在0.5和1之间。AUC越接近1.0,检测方法真实性越高;等于0.5时,则真实性最低,无应用价值。

auc计算方式:参考Python实现计算AUC的示例代码

实现代码

import numpy as np
from sklearn.metrics import roc_auc_score
y_true = [1,1,0,0,1,1,0]
y_pred = [0.8,0.7,0.5,0.5,0.5,0.5,0.3]
print(roc_auc_score(y_true, y_pred))
# 下面实现的是方法1
# https://blog.csdn.net/lieyingkub99/article/details/81266664?utm_medium=distribute.pc_relevant.none-task-blog-title-1&spm=1001.2101.3001.4242
def cal_auc1(y_true, y_pred):
    n_bins = 10
    postive_len = sum(y_true)  # M正样本个数
    negative_len = len(y_true) - postive_len  # N负样本个数
    total_case = postive_len * negative_len  # M * N样本对数
    pos_histogram = [0 for _ in range(n_bins)]  # 保存每一个概率值下的正样本个数
    neg_histogram = [0 for _ in range(n_bins)]  # 保存每一个概率值下的负样本个数
    bin_width = 1.0 / n_bins
    for i in range(len(y_true)):
        nth_bin = int(y_pred[i] / bin_width)  # 概率值转化为整数下标
        if y_true[i] == 1:
            pos_histogram[nth_bin] += 1
        else:
            neg_histogram[nth_bin] += 1
    print(pos_histogram)
    print(neg_histogram)
    accumulated_neg = 0
    satisfied_pair = 0
    for i in range(n_bins):
        satisfied_pair += (pos_histogram[i] * accumulated_neg + pos_histogram[i] * neg_histogram[i] * 0.5)
        print(pos_histogram[i], neg_histogram[i], accumulated_neg, satisfied_pair)
        accumulated_neg += neg_histogram[i]

    return satisfied_pair / float(total_case)
print(cal_auc1(y_true, y_pred))
# 下面实现的是方法2
# https://blog.csdn.net/lieyingkub99/article/details/81266664?utm_medium=distribute.pc_relevant.none-task-blog-title-1&spm=1001.2101.3001.4242
def cal_auc2(y_true, y_pred):
    n_bins = 10
    postive_len = sum(y_true)  # M正样本个数
    negative_len = len(y_true) - postive_len  # N负样本个数
    total_case = postive_len * negative_len  # M * N样本对数
    prob_rank = [0 for _ in range(n_bins)]  # 保存每一个概率值的rank
    prob_num = [0 for _ in range(n_bins)]  # 保存每一个概率值出现的次数
    bin_width = 1.0 / n_bins
    raw_arr = []
    for i in range(len(y_true)):
        raw_arr.append([y_pred[i], y_true[i]])
    arr = sorted(raw_arr, key=lambda d: d[0]) # 按概率由低到高排序
    for i in range(len(arr)):
        nth_bin = int(arr[i][0] / bin_width)  # 概率值转化为整数下标
        prob_rank[nth_bin] = prob_rank[nth_bin] + i + 1
        prob_num[nth_bin] = prob_num[nth_bin] + 1
    satisfied_pair = 0
    for i in range(len(arr)):
        if arr[i][1] == 1:
            nth_bin = int(arr[i][0] / bin_width)  # 概率值转化为整数下标
            satisfied_pair = satisfied_pair + prob_rank[nth_bin] / prob_num[nth_bin]
    return (satisfied_pair - postive_len * (postive_len + 1) / 2 ) / total_case

print(cal_auc2(y_true, y_pred))

# 根据roc曲线,找不同点算下面积, 需要点足够多
def cal_auc3(y_true, y_pred):
    """Summary
    Args:
        raw_arr (TYPE): Description
    Returns:
        TYPE: Description
    """
    raw_arr = []
    for i in range(len(y_true)):
        raw_arr.append([y_pred[i], y_true[i]])
    print(raw_arr)
    arr = sorted(raw_arr, key=lambda d:d[0], reverse=True)
    pos, neg = 0., 0.
    for record in arr:
        if record[1] == 1.:
            pos += 1
        else:
            neg += 1

    fp, tp = 0., 0.
    xy_arr = []
    for record in arr:
        if record[1] == 1.:
            tp += 1
        else:
            fp += 1
        xy_arr.append([fp/neg, tp/pos])
    print(xy_arr)
    auc = 0.
    prev_x = 0.
    prev_y = 0.
    for x, y in xy_arr:
        if x != prev_x:
            auc += ((x - prev_x) * (y + prev_y) / 2.)
            prev_x = x
            prev_y = y
        print(auc)
    import numpy as np
    from sklearn.metrics import roc_auc_score
    y_true = [1, 1, 0, 0, 1, 1, 0]
    y_pred = [0.8, 0.7, 0.5, 0.5, 0.5, 0.5, 0.3]
    print(roc_auc_score(y_true, y_pred))

方法补充

下面是小编为大家找到的另外三个计算AUC的代码,会输出三种方法各自的auc,以及通过面积计算AUC时的ROC曲线。

在通过面积计算AUC的方法中,没有遍历数据的预测概率作为分类阈值,而是对[0,1]区间等分得到一系列阈值。

# AUC的计算
import numpy as np
import matplotlib.pyplot as plt

for e in range(3):
    print("\nRound: ", e+1)

    num = 1000
    auc1 = auc2 = auc3 = 0.

    # 准备数据
    pred_prob = list(np.random.uniform(low=0,high=1, size=[num]))
    labels = [int(prob>0.5) for prob in list(np.random.uniform(low=0,high=1, size=[num]))]

    # 检查数据
    # print("pred_prob:\n", pred_prob)
    # print("labels:\n", labels)

    # 方法一,面积加和
    roc_point = []
    for i in range(num):
        i = pred_prob[i]
        TP = 0  # 真阳样本数
        FP = 0  # 假阳样本数
        TP_rate = 0.  # 真阳率
        FP_rate = 0.  # 假阳率
        pos_num = 0   # 预测真样本数

        # 计数过程
        for ind, prob in enumerate(pred_prob):
            if prob>i:
                pos_num += 1
            if prob>i and labels[ind]>0.5:
                TP+=1
            elif prob>i and labels[ind]<0.5:
                FP+=1
        if pos_num!=0:
            TP_rate = TP / sum(labels)
            FP_rate = FP / (num-sum(labels))
        roc_point.append([FP_rate, TP_rate])  # 记录ROC中的点
    # 画出ROC曲线
    roc_point.sort(key=lambda x: x[0])
    plt.plot(np.array(roc_point)[1:, 0], np.array(roc_point)[1: ,1])
    plt.xlabel("FPR")
    plt.ylabel("TPR")
    plt.show()

    # 计算每个小长方形的面积,求和即为auc
    lastx = 0.
    for x,y in roc_point:
        auc1 += (x-lastx)*y  # 底乘高
        lastx = x

    print("方法一 auc:", auc1)

    # 方法二,利用AUC关于排列概率的定义计算
    auc2 = 0
    P_ind = []  # 正样本下标
    F_ind = []  # 负样本下标
    P_F = 0  # 正样本分数高于负样本的数量
    F_P = 0  # 负样本分数高于正样本的数量

    #  计数过程
    for ind, val in enumerate(labels):
        if val > 0.5:
            P_ind.append(ind)
        else:
            F_ind.append(ind)
    for Pi in P_ind:
        for Fi in F_ind:
            if pred_prob[Pi] > pred_prob[Fi]:
                P_F += 1
            else:
                F_P += 1
    auc2 = P_F/(len(P_ind)*len(F_ind))
    print("方法二 auc:", auc2)

    # 方法三,方法二的改进,简化了计算,降低了时间复杂度
    new_data = [[p, l] for p, l in zip(pred_prob, labels)]
    new_data.sort(key=lambda x:x[0])

    # 求正样本rank之和
    rank_sum = 0
    for ind, [prob,label] in enumerate(new_data):
        if label>0.5:
            rank_sum+=ind
    auc3 = (rank_sum - len(P_ind)*(1+len(P_ind))/2) / (len(P_ind)*len(F_ind))
    print("方法三 auc:", auc3)

运行结果

到此这篇关于Python实现计算AUC的三种方式总结的文章就介绍到这了,更多相关Python计算AUC内容请搜索我们以前的文章或继续浏览下面的相关文章希望大家以后多多支持我们!

(0)

相关推荐

  • python计算auc指标实例

    1.安装scikit-learn 1.1Scikit-learn 依赖 Python (>= 2.6 or >= 3.3), NumPy (>= 1.6.1), SciPy (>= 0.9). 分别查看上述三个依赖的版本, python -V 结果:Python 2.7.3 python -c 'import scipy; print scipy.version.version' scipy版本结果:0.9.0 python -c "import numpy; print

  • Python实现计算AUC的示例代码

    目录 为什么这样一个指标可以衡量分类效果 auc理解 AUC计算 方法一 方法二 实现及验证 AUC(Area under curve)是机器学习常用的二分类评测手段,直接含义是ROC曲线下的面积,如下图: 要理解这张图的含义,得先理解下面这个表: 表中列代表预测分类,行代表实际分类: 实际1,预测1:真正类(tp) 实际1,预测0:假负类(fn) 实际0,预测1:假正类(fp) 实际0,预测0:真负类(tn) 真实负样本总数=n=fp+tn 真实正样本总数=p=tp+fn 在第一张图中, 横坐

  • 利用Python画ROC曲线和AUC值计算

    前言 ROC(Receiver Operating Characteristic)曲线和AUC常被用来评价一个二值分类器(binary classifier)的优劣.这篇文章将先简单的介绍ROC和AUC,而后用实例演示如何python作出ROC曲线图以及计算AUC. AUC介绍 AUC(Area Under Curve)是机器学习二分类模型中非常常用的评估指标,相比于F1-Score对项目的不平衡有更大的容忍性,目前常见的机器学习库中(比如scikit-learn)一般也都是集成该指标的计算,但

  • python计算auc的方法

    1.安装scikit-learn 1.1 Scikit-learn 依赖 Python (>= 2.6 or >= 3.3), NumPy (>= 1.6.1), SciPy (>= 0.9). 分别查看上述三个依赖的版本: python -V 结果: Python 2.7.3 python -c 'import scipy; print scipy.version.version' scipy版本结果: 0.9.0 python -c "import numpy; pr

  • AUC计算方法与Python实现代码

    -AUC计算方法 -AUC的Python实现方式 AUC计算方法 AUC是ROC曲线下的面积,它是机器学习用于二分类模型的评价指标,AUC反应的是模型对样本的排序能力.它的统计意义是从所有正样本随机抽取一个正样本,从所有负样本随机抽取一个负样本,当前score使得正样本排在负样本前面的概率. AUC的计算主要以下几种方法: 1.计算ROC曲线下的面积.这是比较直接的一种方法,可以近似计算ROC曲线一个个小梯形的面积.几乎不会用这种方法 2.从AUC统计意义去计算.所有的正负样本对中,正样本排在负

  • 利用python画出AUC曲线的实例

    以load_breast_cancer数据集为例,模型细节不重要,重点是画AUC的代码. 直接上代码: from sklearn.datasets import load_breast_cancer from sklearn import metrics from sklearn.ensemble import RandomForestClassifier from sklearn.model_selection import train_test_split import pylab as p

  • Python实现计算AUC的三种方式总结

    目录 介绍 实现代码 方法补充 介绍 AUC(Area Under Curve)被定义为ROC曲线下与坐标轴围成的面积,显然这个面积的数值不会大于1.又由于ROC曲线一般都处于y=x这条直线的上方,所以AUC的取值范围在0.5和1之间.AUC越接近1.0,检测方法真实性越高;等于0.5时,则真实性最低,无应用价值. auc计算方式:参考Python实现计算AUC的示例代码 实现代码 import numpy as np from sklearn.metrics import roc_auc_sc

  • Python图片存储和访问的三种方式详解

    目录 前言 数据准备 一个可以玩的数据集 图像存储的设置 LMDB HDF5 单一图像的存储 存储到 磁盘 存储到 LMDB 存储 HDF5 存储方式对比 多个图像的存储 多图像调整代码 准备数据集对比 单一图像的读取 从 磁盘 读取 从 LMDB 读取 从 HDF5 读取 读取方式对比 多个图像的读取 多图像调整代码 准备数据集对比 读写操作综合比较 数据对比 并行操作 前言 ImageNet 是一个著名的公共图像数据库,用于训练对象分类.检测和分割等任务的模型,它包含超过 1400 万张图像

  • Python使用matplotlib 画矩形的三种方式分析

    本文实例讲述了Python使用matplotlib 画矩形的三种方式.分享给大家供大家参考,具体如下: 假设矩形两点坐标如下,分别为:x1, y1, x2, y2 cat_dict['bbox'][i] = (min_row, min_col, max_row, max_col) 1. plt.plot(x,y) 这种方式画的矩形 因为边距的问题 会放缩 plt.plot([cat_dict['bbox'][i][1], cat_dict['bbox'][i][3], cat_dict['bbo

  • Python写入MySQL数据库的三种方式详解

    目录 场景一:数据不需要频繁的写入mysql 场景二:数据是增量的,需要自动化并频繁写入mysql 方式一 方式二 总结 大家好,Python 读取数据自动写入 MySQL 数据库,这个需求在工作中是非常普遍的,主要涉及到 python 操作数据库,读写更新等,数据库可能是 mongodb. es,他们的处理思路都是相似的,只需要将操作数据库的语法更换即可. 本篇文章会给大家分享数据如何写入到 mysql,分为两个场景,三种方式. 场景一:数据不需要频繁的写入mysql 使用 navicat 工

  • Python处理mat文件的三种方式小结

    目录 处理mat文件的三种方式 scipy h5py mat73 mat4py python操作.mat文件 python读取.mat格式 mat转图片 处理mat文件的三种方式 读书的时候,处理数据都是采用matlab,但毕业后当了程序员,matlab从此在自己的电脑上消失了(安装包太大,还要license,启动也好慢,不符合程序员的需求). 但是最近公司仿真的数据是以matlab的.mat格式存储的,需要读取出来处理,那就找找python相关的库吧,没有python干不了的活!!! mat文

  • 带你了解Python妙开根号的三种方式

    目录 前言: 一,math库 二,cmath库 三,pow()函数 总结 前言: 大家好啊!又是我TUSTer_!  python里有自带的库math,cmath,和函数pow来开根号.下边让我带你了解他们吧!记得一键三连! 一,math库 使用math库里的sqr()函数,在math库里边有很多数学函数,如三角函数sin(),pi-π等等: import math print(math.sqr(4)) 输出结果:2 二,cmath库 cmath多用于复数,负数的开平方. import cmat

  • python实现超时退出的三种方式总结

    目录 基于signal模块实现 基于子线程阻塞实现超时 基于协程实现 基于signal模块实现 signal包负责在Python程序内部处理信号,典型的操作包括预设信号处理函数,暂停并等待信号,以及定时发出SIGALRM等. 要注意,signal包主要是针对UNIX平台(比如Linux, MAC OS),而Windows内核中由于对信号机制的支持不充分,所以在Windows上的Python不能发挥信号系统的功能. # coding:utf8 import time import signal  

  • 详解Python进行数据相关性分析的三种方式

    目录 相关性实现 NumPy 相关性计算 SciPy 相关性计算 Pandas 相关性计算 线性相关实现 线性回归:SciPy 实现 等级相关 排名:SciPy 实现 等级相关性:NumPy 和 SciPy 实现 等级相关性:Pandas 实现 相关性的可视化 带有回归线的 XY 图 相关矩阵的热图 matplotlib 相关矩阵的热图 seaborn 相关性实现 统计和数据科学通常关注数据集的两个或多个变量(或特征)之间的关系.数据集中的每个数据点都是一个观察值,特征是这些观察值的属性或属性.

  • Python绘制散点密度图的三种方式详解

    目录 方式一 方式二 方式三 方式一 import matplotlib.pyplot as plt import numpy as np from scipy.stats import gaussian_kde from mpl_toolkits.axes_grid1 import make_axes_locatable from matplotlib import rcParams config = {"font.family":'Times New Roman',"fo

  • Python tkinter模块中类继承的三种方式分析

    本文实例讲述了Python tkinter模块中类继承的三种方式.分享给大家供大家参考,具体如下: tkinter class继承有三种方式. 提醒注意这几种继承的运行方式 一.继承 object 1.铺tk.Frame给parent: 说明: self.rootframe = tk.Frame(parent) tk.Label(self.rootframe) import tkinter as tk class MyApp(object): def __init__(self, parent)

随机推荐