Python数据挖掘中常用的五种AutoEDA 工具总结

我们能否使用一些自动化工具代替人来完成数据分析的过程呢,现有一些成熟的 AutoEDA 工具可以一定程度上完成上述过程。本文中,我将盘点常见的 AutoEDA 工具,欢迎收藏学习,喜欢点赞支持,文末提供技术交流群,欢迎畅聊。

1、Pandas Profiling

https://pandas-profiling.github.io/pandas-profiling/docs/master/index.html

Pandas Profiling是款比较成熟的工具,可以直接传入DataFrame即可完成分析过程,将结果展示为HTML格式,同时分析功能也比较强大。

  • 功能:字段类型分析、变量分布分析、相关性分析、缺失值分析、重复行分析
  • 耗时:较少

2、AutoViz

https://github.com/AutoViML/AutoViz

AutoViz是款美观的数据分析工具,在进行可视化的同时将结果保存为图片格式。

  • 功能:相关性分析、数值变量箱线图、数值变量分布图
  • 耗时:较多

3、Dataprep

https://dataprep.ai/

Dataprep是款比较灵活也比较强大的工具,也是笔者最喜欢的。它可以指定列进行分析,同时也可以在Notebook中进行交互式分析。

  • 功能:字段类型分析、变量分布分析、相关性分析、缺失值分析、交互式分析。
  • 耗时:较多

4、SweetViz

https://github.com/fbdesignpro/sweetviz

SweetViz是款强大的数据分析工具,可以很好的分析训练集和测试集,以及目标标签与特征之间的关系。

  • 功能:数据集对比分析、字段类型分析、变量分布分析、目标变量分析
  • 耗时:中等

5、D-Tale

https://github.com/man-group/dtale

D-Tale是款功能最为强大的数据分析工具,对单变量的分析过程支持比较好。

  • 功能:字段类型分析、变量分布分析、相关性分析、缺失值分析、交互式分析。
  • 耗时:中等

技术交流

欢迎转载、收藏、有所收获点赞支持一下!

到此这篇关于Python数据挖掘中常用的五种AutoEDA 工具总结的文章就介绍到这了,更多相关Python 数据挖掘内容请搜索我们以前的文章或继续浏览下面的相关文章希望大家以后多多支持我们!

(0)

相关推荐

  • Python数据挖掘中常用的五种AutoEDA 工具总结

    我们能否使用一些自动化工具代替人来完成数据分析的过程呢,现有一些成熟的 AutoEDA 工具可以一定程度上完成上述过程.本文中,我将盘点常见的 AutoEDA 工具,欢迎收藏学习,喜欢点赞支持,文末提供技术交流群,欢迎畅聊. 1.Pandas Profiling https://pandas-profiling.github.io/pandas-profiling/docs/master/index.html Pandas Profiling是款比较成熟的工具,可以直接传入DataFrame即可

  • python如何实现常用的五种排序算法详解

    一.冒泡排序 原理: 比较相邻的元素.如果第一个比第二个大就交换他们两个 每一对相邻元素做同样的工作,直到结尾最后一对 每个元素都重复以上步骤,除了最后一个 第一步: 将乱序中的最大值找出,逐一移到序列最后的位置 alist = [3, 5, 9, 2, 1, 7, 8, 6, 4] def bubble_sort(alist): # 找最大值的方式是通过对列表中的元素进行两两比较,值大的元素逐步向后移动 # 序列中有n个元素,两两比较的话,需要比较n-1次 for i in range(len

  • python中常用的九种预处理方法分享

    本文总结的是我们大家在python中常见的数据预处理方法,以下通过sklearn的preprocessing模块来介绍; 1. 标准化(Standardization or Mean Removal and Variance Scaling) 变换后各维特征有0均值,单位方差.也叫z-score规范化(零均值规范化).计算方式是将特征值减去均值,除以标准差. sklearn.preprocessing.scale(X) 一般会把train和test集放在一起做标准化,或者在train集上做标准化

  • Python中常用的8种字符串操作方法

    拼接字符串 使用"+"可以对多个字符串进行拼接 语法格式: str1 + str2 >>> str1 = "aaa" >>> str2 = "bbb" >>> print(str1 + str2) aaabbb 需要注意的是字符串不允许直接与其他类型进行拼接,例如 >>> num = 100 >>> str1 = "hello" >

  • Kotlin中单利常用的五种写法

    前言 单利模式是写代码过程中不可避免用到的,下面我总结一下单利常用的五种写法,话不多说了,来一起看看详细的介绍吧 加载类时创建单利 Java实现 public class Config{ private static Config INSTANCE=new Config(); private Config(){ //构造函数 } public static Config getInstance(){ return INSTANCE; } } Kotlin实现 object Config{} 上面

  • 对python中list的五种查找方法说明

    Python中是有查找功能的,五种方式:in.not in.count.index,find 前两种方法是保留字,后两种方式是列表的方法. 下面以a_list = ['a','b','c','hello'],为例作介绍: string类型的话可用find方法去查找字符串位置: a_list.find('a') 如果找到则返回第一个匹配的位置,如果没找到则返回-1,而如果通过index方法去查找的话,没找到的话会报错. 补充知识:Python中查找包含它的列表元素的索引,index报错!!! 对于

  • Python中隐藏的五种实用技巧分享

    目录 1. ... 对象 2.解压迭代对象 3.展开的艺术 4.下划线 _ 变量 5.多种用途的else 循环 异常处理 1. ... 对象 没错,你没看错,就是 "..." 在Python中 ... 代表着一个名为 Ellipsis 的对象.根据官方说明,它是一个特殊值,通常可以作为空函数的占位符,或是用于Numpy中的切片操作. 如: def my_awesome_function():     ... 等同于: def my_awesome_function():     Ell

  • JavaScript中数组去重常用的五种方法详解

    目录 1.对象属性(indexof) 2.new Set(数组) 3.new Map() 4.filter() + indexof 5.reduce() + includes 补充 原数组 const arr = [1, 1, '1', 17, true, true, false, false, 'true', 'a', {}, {}]; 1.对象属性(indexof) 利用对象属性key排除重复项 遍历数组,每次判断新数组中是否存在该属性,不存在就存储在新数组中 并把数组元素作为key,最后返

  • Python格式化输出字符串的五种方法总结

    目录 1. 引言 2. 函数 center() 3. 函数 ljust() 4. 函数 rjust() 5. 函数 zfill() 6. 函数 title() 7. 使用 1. 引言 Python语言有许多优点,常用于不同的领域,如数据科学.web开发.自动化运维等.开发人员在这些技术中选择Python的一个重要原因是Python语法简单,可以节省大家的开发时间. 在本文中,我们将学习如何使用字符串中内置的方法来格式化字符串.闲话少说,我们直接开始吧! 2. 函数 center() 函数cent

  • 详解python解压压缩包的五种方法

    这里讨论使用Python解压例如以下五种压缩文件: .gz .tar  .tgz .zip .rar 简单介绍 gz: 即gzip.通常仅仅能压缩一个文件.与tar结合起来就能够实现先打包,再压缩. tar: linux系统下的打包工具.仅仅打包.不压缩 tgz:即tar.gz.先用tar打包,然后再用gz压缩得到的文件 zip: 不同于gzip.尽管使用相似的算法,能够打包压缩多个文件.只是分别压缩文件.压缩率低于tar. rar:打包压缩文件.最初用于DOS,基于window操作系统. 压缩

随机推荐