python实现数据分析与建模

2025-03-30 00:47:57

前言

首先我们做数据分析，想要得出最科学，最真实的结论，必须要有好的数据。而实际上我们一般面对的的都是复杂，多变的数据，所以必须要有强大的数据处理能力，接下来，我从我们面临的最真实的情况，一步一步教会大家怎么做。

1.数据的读取

 （1）读取模块
 Import pandas as pd
 Import numpy as np
 （2）读取表格的全部数据
 df = pd.read_csv(".data/HR.csv")
 （3）读取你所需要的数据
 sl_s=df["sactisfaction_level"]

2. 数据的处理

2.1.异常值（空值）处理

2.1.1删除

首先，第一步是对空值的处理。

有两种，一种直接删除，另一种指代。

如果数据多，想简单一点，就直接删除，方法都很简单。

首先，建立一个DataFrame表
 1.为了确定是否含有空值：
 df.isnull() #如果含有空值，返回True
 2.删除
 df.dropna() #去掉含空值的行
 如果想要删除某一个属性含空值的行就加入subset参数
 df.dropna(subset=["B"]) #去掉B属性含空值的行
 判断是否有重复的数据：
 df.duplicated(["A"]) #A属性中重复的数据返回True
 删除A属性重复的行
 df.drop_duplicates(["A"])
 df.drop_duplicates(["A"],keep=False) #删除A属性全部重复的行
 df.drop_duplicates(["A"],keep=first) #删除A属性全部重复的行，保留第一个
 df.drop_duplicates(["A"],keep=last) #删除A属性全部重复的行，保留最后一个

2.1.2指代

有些数据非常重要，不能删除，那我们就选择指代，也就是替换

 #含空值的数据被替换为“b*”
 df.fillna("b*")
 #E属性中的含空值的数据被替换成该属性的平均值
 df.fillna(df["E"].mean())
 #插值替换
 如果含空值的元素为最后一个，那么空值的数据替换成和上一个数据一样
 如何含空值的元素为中间，那么空值的数据被（上+下）/2代替
 df["E"].interpolate()
 #3次样条插值 order 参数就是几次样条插值
 df["E"].interpolate(method="spline",order=3)

*函数

 （4）异常值分析（含有就返回True） --isnull()
 sl_s.isnull()
 主要表示没有空值
 （5）提取异常值的该属性信息
 sl_s[sl_s.isnull()]
 （6）提取异常值的表格全部信息
 df[df["sactisfaction_level"].isnull()]
 （7）丢弃异常值 --dropna()
 sl_s=sl_s.dropna()
 注：删除为空的异常值
 可以利用where()把异常数据赋空，然后利用dropna()删除
 （8）填充异常值 --fillna()
 sl_s=sl_s.fillna()
 （9）平均值 --mean()
 sl_s.mean()
 （10）标准差 --std()
 Sl_s.std()
 （11）最大值 --max()
 sl_s.max()
 （12）最小值 --min()
 sl_s.min()
 （13）中位数 --median()
 sl_s.median()
 （14）下四分位数 --quantile(q=0.25)
 sl_s.quantile(q=0.25)
 （15）上四分位数 --quantile(q=0.75)
 sl_s.quantile(q=0.75)
 （16）偏度 --skew()
 sl_s.skew()
 分析：小于0 是负偏 均值偏小，大部分数是比他的均值大的
 大于 0 稍微有些振偏
 远大于0， 是极度振偏，均值要比他的大多数值大好多。
 （17）峰度 --kurt()
 sl_s.kurt()
 分析：<0 相比于正态分布，他的趋势相对平缓
 远大于0 说明他的形变是非常大的，所以是不靠谱的
 （18）获得离散化的分布(numpy模块) --histogram()
 np.histogram(sl_s.values,bins = np.arange(0.0,1.1,0.1))
 结果分析：
 [195,1214,532,974,…]
 [0.0,0.1,0.2,0.3,0.4…]
 代表0.0-0.1之间有195个数，0.1-0.2之间有1214个数，以此类推
 分布间隔为0.1

3.利用四分位数来去除异常值

 3.1.提取大于1的值
 le_s[le_s>1]
 3.2 去除大于1的异常值
 le_s[le_s<=1]
 3.3 提取正常值（利用四分位数）
 3.3.1 下四分位
 q_low=le_s.quantile(q =0.25)
 3.3.2 上四分位
 q_high=le_s.quantile(q=0.75)
 3.3.3 四分位间距
 q_interval=q_high-q_low
 3.3.4 定义k的值
 K=1.5~3之间
 如果k=1.5,删除的异常值是中度异常
 如果k=3.0，删除的异常值是极度异常
 3.3.5 筛选
 le_s=le_s[le_s<q_high+k*q_interval][le_s>q_low-k*q_interval]
 3.4 数据的个数 --len()
 len(le_s)
 3.5离散分布直方图(numpy模块)
 np.histogram(le_s.values,bins=np.arange(0.0,1.1,0.1))
 3.6回顾数据的平均值，标准差，中位数，最大值，最小值，偏度，峰度,确定数据的正常。

4.静态结构分析

 4.1每个值出现的次数 --values_counts()
 np_s.value_counts()
 4.2获取该数据的构成和比例(每个值的频率)
 np_s.value_counts(normalize=True)
 4.3 排序
 np_s.value_counts(normalize=True).sort_index()

5.数据分区间

 5.1把数据分成几份 --histogram（）
 np.histogram(amh_s.values,bins=10) 把数据分成10份
 5.2另一种方法 加了区间，计算区间的频数
 (左闭右开的区间)
 Np.histogram(amh_s.values,bins = np.arange(amh_s.min(),amh_s.max()+10,10))
 （左开右闭的区间）
 amh_s.value_counts(bins=np.arange (amh_s.min(),amh_s.max()+10,10))

6.英文异常值数据的处理

 6.1 首先，统计该数据的分布频数
 s_s.value_counts()
 6.2确定异常值的名字。
 6.3把异常值赋空(NaN) --where()
 s_s.where(s_s!="name")
 意思是把”name”的数据赋空
 6.4把赋空的异常值删除 --dropna()删除异常值
 s_s.where(s_s!="name").dropna()
 6.5 检查删除异常值的结果
 s_s.where(s_s!="name").dropna().value_counts()

7.对比分析

7.1对表格中空值的行删除
 Df = df.dropna(axis=0,how='any')
 axis =0 ,代表的是行删除
 how=‘any' 代表的是含有部分空值就执行行删除
 how=‘all' 代表的是一行全部是空值执行行删除
 7.2含有条件性的对异常值的删除
 df=df[df["last_evaluation"]<=1] [df["salary"]!="name"][df["department" ]!="sale"]
 7.3分组(比如：把同一部门的人分为一组) --groupby()
 df.groupby("department")
 7.4对分组后的组取均值
 df.groupby("department").mean()
 7.5 取部分数据（切片） --loc()
 df.loc[:,["last_evaluation","department"]] .groupby("department")
 7.6 取部分数据求平均
 df.loc[:,["last_evaluation","department"]] .groupby("department").mean()
 7.7 取部分数据求极差 --apply()
 df.loc[:,["average_monthly_hours" ,"department"]].groupby ("department")[ "average_monthly_hours"]. apply(lambda x:x.max()-x.min())

总结

以上所述是小编给大家介绍的python实现数据分析与建模 ,希望对大家有所帮助，如果大家有任何疑问请给我留言，小编会及时回复大家的。在此也非常感谢大家对我们网站的支持！
如果你觉得本文对你有帮助，欢迎转载，烦请注明出处，谢谢！

Python基于Logistic回归建模计算某银行在降低贷款拖欠率的数据示例

本文实例讲述了Python基于Logistic回归建模计算某银行在降低贷款拖欠率的数据.分享给大家供大家参考,具体如下: 一.Logistic回归模型: 二.Logistic回归建模步骤 1.根据分析目的设置指标变量(因变量和自变量),根据收集到的数据进行筛选 2.用ln(p/1-p)和自变量x1...xp列出线性回归方程,估计出模型中的回归系数 3.进行模型检验.模型有效性检验的函数有很多,比如正确率.混淆矩阵.ROC曲线.KS值 4.模型应用. 三.对某银行在降低贷款拖欠率的数据进行建模源
Python框架Flask的基本数据库操作方法分析

本文实例讲述了Python框架Flask的基本数据库操作方法.分享给大家供大家参考,具体如下: 数据库操作在web开发中扮演着一个很重要的角色,网站中很多重要的信息都需要保存到数据库中.如用户名.密码等等其他信息.Django框架是一个基于MVT思想的框架,也就是说他本身就已经封装了Model类,可以在文件中直接继承过来.但是在Flask中,并没有把Model类封装好,需要使用一个扩展包,Flask-SQLAlchemy.它是一个对数据库的抽象,让开发者不用这些编写SQL语句,而是使用其提供的接
Python实现连接postgresql数据库的方法分析

本文实例讲述了Python实现连接postgresql数据库的方法.分享给大家供大家参考,具体如下: python可以通过第三方模块连接postgresql. 比较有名的有psycopg2和python3-postgresql (一)psycopg2 ubuntu下安装 sudo apt-get install python3-psycopg2 创建一个test.py文件 import psycopg2 # 数据库连接参数 conn = psycopg2.connect(database="te
分享一下Python数据分析常用的8款工具

Python是数据处理常用工具,可以处理数量级从几K至几T不等的数据,具有较高的开发效率和可维护性,还具有较强的通用性和跨平台性.Python可用于数据分析,但其单纯依赖Python本身自带的库进行数据分析还是具有一定的局限性的,需要安装第三方扩展库来增强分析和挖掘能力. Python数据分析需要安装的第三方扩展库有:Numpy.Pandas.SciPy.Matplotlib.Scikit-Learn.Keras.Gensim.Scrapy等,以下是千锋武汉Python培训老师对该第三方扩展库的
Python数据分析matplotlib设置多个子图的间距方法

注意,要看懂这里,必须具备简单的Python数据分析知识,必须知道matplotlib的简单使用! 例1: plt.subplot(221) # 第一行的左图 plt.subplot(222) # 第一行的右图 plt.subplot(212) # 第二整行 plt.title('xxx') plt.tight_layout() #设置默认的间距例2: for i in range(25): plt.subplot(5,5,i+1) plt.tight_layout() 例3: # 设定画图板
python实现数据分析与建模

前言首先我们做数据分析,想要得出最科学,最真实的结论,必须要有好的数据.而实际上我们一般面对的的都是复杂,多变的数据,所以必须要有强大的数据处理能力,接下来,我从我们面临的最真实的情况,一步一步教会大家怎么做. 1.数据的读取 (1)读取模块 Import pandas as pd Import numpy as np (2)读取表格的全部数据 df = pd.read_csv(".data/HR.csv") (3)读取你所需要的数据 sl_s=df["sactisfact
python中的Pytorch建模流程汇总

目录 1导入库 2设置初始值 3导入并制作数据集 4定义神经网络架构 5定义训练流程 6训练模型本节内容学习帮助大家梳理神经网络训练的架构. 一般我们训练神经网络有以下步骤: 导入库设置训练参数的初始值导入数据集并制作数据集定义神经网络架构定义训练流程训练模型推荐文章: python实现可视化大屏分享4款 Python 自动数据分析神器以下,我就将上述步骤使用代码进行注释讲解: 1 导入库 import torch from torch import nn from torch
对Python进行数据分析_关于Package的安装问题

一.为什么要使用Python进行数据分析? python拥有一个巨大的活跃的科学计算社区,拥有不断改良的库,能够轻松的集成C,C++,Fortran代码(Cython项目),可以同时用于研究和原型的构建以及生产系统的构建. 二.Python的优势与劣势: 1.Python是一种解释型语言,运行速度比编译型数据慢. 2.由于python有一个全局解释器锁(GIL),防止解释器同时执行多条python字节码,所以python不适用于高并发.多线程的应用程序. 三.使用Python进行数据分析常用的扩
Python常用数据分析模块原理解析

前言 python是一门优秀的编程语言,而是python成为数据分析软件的是因为python强大的扩展模块.也就是这些python的扩展包让python可以做数据分析,主要包括numpy,scipy,pandas,matplotlib,scikit-learn等等诸多强大的模块,在结合上ipython交互工具 ,以及python强大的爬虫数据获取能力,字符串处理能力,让python成为完整的数据分析工具. numpy 官网:https://www.scipy.org/ NumPy(Numeric
Python Pandas数据分析之iloc和loc的用法详解

Pandas 是一套用于 Python 的快速.高效的数据分析工具.它可以用于数据挖掘和数据分析,同时也提供数据清洗功能.本篇目录如下: 一.iloc 1.定义 iloc索引器用于按位置进行基于整数位置的索引或者选择. 2.语法 df.iloc [row selection, column selection] 3.代码示例 (1)导入数据 (2)选择单行或单列 (3)选择多行或多列 (4)注意 iloc选择一行时返回Series,选择多行返回DataFrame,通过传递列表可转为DataFra
分享4款Python 自动数据分析神器

目录 1.PandasGUI 2.PandasProfiling 3.Sweetviz 4.dtale 4.1数据操作(Actions) 4.2数据可视化(Visualize) 4.3高亮显示(Highlight) 前言: 我们做数据分析,在第一次拿到数据集的时候,一般会用统计学或可视化方法来了解原始数据.比如了解列数.行数.取值分布.缺失值.列之间的相关关系等等,这个过程我们叫做 EDA(Exploratory Data Analysis,探索性数据分析). 用pandas一行行写代码,那太痛
python可视化数据分析pyecharts初步尝试

目录整体说明例子 Boxplot Bar HeatMap 有一个web+flask项目需要可视化数据分析结果,检索后发现,pyecharts工具包非常对口. Echarts 是一个由百度开源的数据可视化,凭借着良好的交互性,精巧的图表设计,得到了众多开发者的认可.而 Python 是一门富有表达力的语言,很适合用于数据处理.当数据分析遇上数据可视化时,pyecharts 诞生了. pyecharts中文文档有详细的说明,这里记录了个人更感兴趣的部分和对应的使用结果. 整体说明 pyechar
Python高级数据分析之pandas和matplotlib绘图

目录一.matplotlib 库二.Pandas绘图 1.绘制简单的线型图 1.1)简单的Series图表示例 .plot() 1.2) 两个Series绘制的曲线可以叠加 2.数据驱动的线型图(分析苹果股票) 3.绘制简单的柱状图 4.绘制简单的直方图 5.绘制简单的核密度(“ked”)图 6.绘制简单的散点图总结一.matplotlib 库一个用来绘图的库 import matplotlib.pyplot as plt 1)plt.imread(“图片路径”) 功能: 将图片加载后
Blender Python编程实现程序化建模生成超形示例详解

目录正文什么是超形(Supershapes, Superformula) 二维超形 n1 = n2 = n3 = 1 n1 = n2 = n3 = 0.3 其他特别情况例子 1 例子 2 例子 3 例子 4 例子 5 奇异的形状三维超形 Blender 生成超形详细代码和注释如下正文 Blender 并不是唯一一款允许你为场景编程和自动化任务的3D软件; 随着每一个新版本的推出,Blender 正逐渐成为一个可靠的 CG 制作一体化解决方案,从使用油脂铅笔的故事板到基于节点的合成.

python实现数据分析与建模

相关推荐

随机推荐