Python Pandas删除替换并提取其中的缺失值NaN(dropna,fillna,isnull)

2025-03-03 02:06:31

前言

例如，当使用pandas读取csv文件时，如果元素为空，则将其视为缺失值NaN（非数字）。

使用dropna（）方法删除缺失值，使用fillna（）方法用其他值替换（填充）缺失值。

如果要提取包含缺失值的行或列，使用isnull（）方法确定元素是否缺失。

例如，读取并使用包含带read_csv的空格的csv文件。

import pandas as pd
import numpy as np
import math

df = pd.read_csv('./data/05/sample_pandas_normal_nan.csv')
print(df)
#       name   age state  point  other
# 0    Alice  24.0    NY    NaN    NaN
# 1      NaN   NaN   NaN    NaN    NaN
# 2  Charlie   NaN    CA    NaN    NaN
# 3     Dave  68.0    TX   70.0    NaN
# 4    Ellen   NaN    CA   88.0    NaN
# 5    Frank  30.0   NaN    NaN    NaN

在此，将对以下内容进行说明。

Pandas中缺失值NaN的介绍
将缺失值作为Pandas中的缺失值NaN
缺失值NaN的删除方法
- 删除所有值均缺失的行/列
- 删除至少包含一个缺失值的行/列
- 根据不缺失值的元素数量删除行/列
- 删除特定行/列中缺失值的列/行
- pandas.Series
替换（填充）缺失值
- 用通用值统一替换
- 为每列替换不同的值
- 用每列的平均值，中位数，最频繁值等替换
- 替换为上一个或下一个值
- 指定连续更换的最大数量
- pandas.Series
提取缺失值
- 提取特定行/列中缺少值的列/行
- 提取至少包含一个缺失值的行/列

Pandas中缺少值NaN的介绍

在Pandas中，如果列包含任何缺失值NaN，则即使所有其他值均为整数int，该列的dtype也将被视为浮点。

df = pd.read_csv('./data/05/sample_pandas_normal_nan.csv')
print(df)
#       name   age state  point  other
# 0    Alice  24.0    NY    NaN    NaN
# 1      NaN   NaN   NaN    NaN    NaN
# 2  Charlie   NaN    CA    NaN    NaN
# 3     Dave  68.0    TX   70.0    NaN
# 4    Ellen   NaN    CA   88.0    NaN
# 5    Frank  30.0   NaN    NaN    NaN

print(df.dtypes)
# name      object
# age      float64
# state     object
# point    float64
# other    float64
# dtype: object

虽然编写代码时不必担心，但是对象类型列的缺失值是内置的float，而浮点类型列的缺失值是NumPy的numpy.float64。数字可能会因环境而异）。

print(df.at[1, 'name'])
print(type(df.at[1, 'name']))
# nan
# <class 'float'>

print(df.at[0, 'point'])
print(type(df.at[0, 'point']))
# nan
# <class 'numpy.float64'>

使用pandas.isnull（）检查缺失的值。也可以使用numpy.isnan（）和math.isnan（）（但是需要分别导入NumPy和math）。

print(pd.isnull(df.at[0, 'point']))
print(np.isnan(df.at[0, 'point']))
print(math.isnan(df.at[0, 'point']))
# True
# True
# True

注意，用==与np.nan或math.nan比较会返回False。

print(df.at[0, 'point'] == np.nan)
# False

将缺失值作为Pandas中的缺少值NaN

在Pandas中，将None，np.nan，math.nan和pd.np.nan视为缺失值NaN，以下所述的dropna（）和fillna（）。另外，只要导入了Pandas，pd.np.nan就可以不导入NumPy了。在numpy.float64中，None也转换为nan。

s_nan = pd.Series([None, np.nan, math.nan, pd.np.nan])
print(s_nan)
# 0   NaN
# 1   NaN
# 2   NaN
# 3   NaN
# dtype: float64

print(s_nan[0])
print(type(s_nan[0]))
# nan
# <class 'numpy.float64'>

print(s_nan.isnull())
# 0    True
# 1    True
# 2    True
# 3    True
# dtype: bool

如上所述，如果包含缺失值，则将整数int类型值强制转换为浮点浮点类型。

s_nan_int = pd.Series([None, pd.np.nan, 0, 1])
print(s_nan_int)
# 0    NaN
# 1    NaN
# 2    0.0
# 3    1.0
# dtype: float64

print(s_nan_int.isnull())
# 0     True
# 1     True
# 2    False
# 3    False
# dtype: bool

如果包含字符串str值，则其pandas.Series（和pandas.DataFrame列）数据类型将为object。 None不会转换为numpy.float64的nan并保持为None，但是它是dropna（）和fillna（）的对象，因此在实践中无需担心。

s_nan_str = pd.Series([None, pd.np.nan, 'NaN', 'nan'])
print(s_nan_str)
# 0    None
# 1     NaN
# 2     NaN
# 3     nan
# dtype: object

print(s_nan_str[0])
print(type(s_nan_str[0]))
# None
# <class 'NoneType'>

print(s_nan_str.isnull())
# 0     True
# 1     True
# 2    False
# 3    False
# dtype: bool

如果有一个您想当作缺失值的值，例如字符串“ NaN”，则可以使用replace（）方法将其替换为缺失值。

s_nan_str_replace = s_nan_str.replace({'NaN': pd.np.nan, 'nan': pd.np.nan})
print(s_nan_str_replace)
# 0   NaN
# 1   NaN
# 2   NaN
# 3   NaN
# dtype: float64

print(s_nan_str_replace.isnull())
# 0    True
# 1    True
# 2    True
# 3    True
# dtype: bool

请注意，在上面的示例中，在读取read_csv（）之类的文件的函数中，空字符串（空白）和字符串’NaN’，'null’默认情况下视为缺失值。有关详细信息，请参见以下文章。

Pandas读取csv/tsv文件（read_csv，read_table）

缺少值NaN的删除方法

使用dropna（）方法删除缺失值。

默认情况下，将返回新对象，并且不会更改原始对象，但是参数inplace = True会更改原始对象本身。以较早加载的pandas.DataFrame为例。

print(df)
#       name   age state  point  other
# 0    Alice  24.0    NY    NaN    NaN
# 1      NaN   NaN   NaN    NaN    NaN
# 2  Charlie   NaN    CA    NaN    NaN
# 3     Dave  68.0    TX   70.0    NaN
# 4    Ellen   NaN    CA   88.0    NaN
# 5    Frank  30.0   NaN    NaN    NaN

删除所有值均缺失的行/列

如果指定了参数how =‘all’，则将删除所有缺少值的行。

print(df.dropna(how='all'))
#       name   age state  point  other
# 0    Alice  24.0    NY    NaN    NaN
# 2  Charlie   NaN    CA    NaN    NaN
# 3     Dave  68.0    TX   70.0    NaN
# 4    Ellen   NaN    CA   88.0    NaN
# 5    Frank  30.0   NaN    NaN    NaN

如果设置axis = 1，则将删除所有缺少值的列。

print(df.dropna(how='all', axis=1))
#       name   age state  point
# 0    Alice  24.0    NY    NaN
# 1      NaN   NaN   NaN    NaN
# 2  Charlie   NaN    CA    NaN
# 3     Dave  68.0    TX   70.0
# 4    Ellen   NaN    CA   88.0
# 5    Frank  30.0   NaN    NaN

如果axis = [0，1]，则会删除所有缺失值的行和列，但是从版本0.23.0开始，将不推荐使用（不推荐使用）轴列表和元组规范。如果要同时应用于行和列，则可以重复应用dropna（）。

print(df.dropna(how='all').dropna(how='all', axis=1))
#       name   age state  point
# 0    Alice  24.0    NY    NaN
# 2  Charlie   NaN    CA    NaN
# 3     Dave  68.0    TX   70.0
# 4    Ellen   NaN    CA   88.0
# 5    Frank  30.0   NaN    NaN

删除至少包含一个缺失值的行/列

示例是删除所有缺少值的行和列的数据。

df2 = df.dropna(how='all').dropna(how='all', axis=1)
print(df2)
#       name   age state  point
# 0    Alice  24.0    NY    NaN
# 2  Charlie   NaN    CA    NaN
# 3     Dave  68.0    TX   70.0
# 4    Ellen   NaN    CA   88.0
# 5    Frank  30.0   NaN    NaN

如果指定了参数how =‘any’，则将删除至少包含一个缺失值的行。默认值为how =‘any’。

print(df2.dropna(how='any'))
#    name   age state  point
# 3  Dave  68.0    TX   70.0

print(df2.dropna())
#    name   age state  point
# 3  Dave  68.0    TX   70.0

如果设置axis = 1，则将删除包含至少一个缺失值的列将被删除。

print(df2.dropna(how='any', axis=1))
#       name
# 0    Alice
# 2  Charlie
# 3     Dave
# 4    Ellen
# 5    Frank

根据不缺少值的元素数量删除行/列

通过在参数thresh中指定数字，可以根据不缺少值的元素数量删除行和列。

例如，如果thresh = 3，则保留包含三个或更多个不丢失值的元素的行，并删除其他行（包含两个或更多个不丢失值的元素的行）。

print(df.dropna(thresh=3))
#     name   age state  point  other
# 0  Alice  24.0    NY    NaN    NaN
# 3   Dave  68.0    TX   70.0    NaN
# 4  Ellen   NaN    CA   88.0    NaN

如果axis= 1，则应用于列。

print(df.dropna(thresh=3, axis=1))
#       name   age state
# 0    Alice  24.0    NY
# 1      NaN   NaN   NaN
# 2  Charlie   NaN    CA
# 3     Dave  68.0    TX
# 4    Ellen   NaN    CA
# 5    Frank  30.0   NaN

删除特定行/列中缺少值的列/行

如果要基于特定的行/列删除，请在列表的参数子集中指定要定位的行/列标签。由于它必须是列表，因此请至少指定一个目标，例如subset = [‘name’]。默认情况下，子集指定的列中缺少值的行将被删除。

print(df.dropna(subset=['age']))
#     name   age state  point  other
# 0  Alice  24.0    NY    NaN    NaN
# 3   Dave  68.0    TX   70.0    NaN
# 5  Frank  30.0   NaN    NaN    NaN

如果指定了多列，则默认为删除所有缺少指定值的行。

print(df.dropna(subset=['age', 'state']))
#     name   age state  point  other
# 0  Alice  24.0    NY    NaN    NaN
# 3   Dave  68.0    TX   70.0    NaN

如果参数how =‘all’，则仅删除所有指定列均缺少值的行。

print(df.dropna(subset=['age', 'state'], how='all'))
#       name   age state  point  other
# 0    Alice  24.0    NY    NaN    NaN
# 2  Charlie   NaN    CA    NaN    NaN
# 3     Dave  68.0    TX   70.0    NaN
# 4    Ellen   NaN    CA   88.0    NaN
# 5    Frank  30.0   NaN    NaN    NaN

如果axis = 1，则删除子集指定的行中缺少值的列。参数how也可以使用。

print(df.dropna(subset=[0, 4], axis=1))
#       name state
# 0    Alice    NY
# 1      NaN   NaN
# 2  Charlie    CA
# 3     Dave    TX
# 4    Ellen    CA
# 5    Frank   NaN

print(df.dropna(subset=[0, 4], axis=1, how='all'))
#       name   age state  point
# 0    Alice  24.0    NY    NaN
# 1      NaN   NaN   NaN    NaN
# 2  Charlie   NaN    CA    NaN
# 3     Dave  68.0    TX   70.0
# 4    Ellen   NaN    CA   88.0
# 5    Frank  30.0   NaN    NaN

pandas.Series

如果数据是一维pandas.Series，则只需调用dropna（）。缺少的值将被删除。

s = df['age']
print(s)
# 0    24.0
# 1     NaN
# 2     NaN
# 3    68.0
# 4     NaN
# 5    30.0
# Name: age, dtype: float64

print(s.dropna())
# 0    24.0
# 3    68.0
# 5    30.0
# Name: age, dtype: float64

替换（填充）缺失值

可以使用fillna（）方法将缺失值替换为任意值。

默认情况下，将返回新对象，并且不会更改原始对象，但是参数inplace = True会更改原始对象本身。以较早加载的pandas.DataFrame为例。

print(df)
#       name   age state  point  other
# 0    Alice  24.0    NY    NaN    NaN
# 1      NaN   NaN   NaN    NaN    NaN
# 2  Charlie   NaN    CA    NaN    NaN
# 3     Dave  68.0    TX   70.0    NaN
# 4    Ellen   NaN    CA   88.0    NaN
# 5    Frank  30.0   NaN    NaN    NaN

用通用值统一替换

如果指定要用参数替换的值，则所有缺少的值NaN都将替换为该值。

print(df.fillna(0))
#       name   age state  point  other
# 0    Alice  24.0    NY    0.0    0.0
# 1        0   0.0     0    0.0    0.0
# 2  Charlie   0.0    CA    0.0    0.0
# 3     Dave  68.0    TX   70.0    0.0
# 4    Ellen   0.0    CA   88.0    0.0
# 5    Frank  30.0     0    0.0    0.0

为每列替换不同的值

将字典指定为参数时，每列将替换一个不同的值。字典键是列标签（列名），而值是要替换的值。未指定的列仍缺少值NaN。

print(df.fillna({'name': 'XXX', 'age': 20, 'point': 0}))
#       name   age state  point  other
# 0    Alice  24.0    NY    0.0    NaN
# 1      XXX  20.0   NaN    0.0    NaN
# 2  Charlie  20.0    CA    0.0    NaN
# 3     Dave  68.0    TX   70.0    NaN
# 4    Ellen  20.0    CA   88.0    NaN
# 5    Frank  30.0   NaN    0.0    NaN

不仅可以指定字典，还可以指定pandas.Series。具有与pandas.Series中的标签匹配的列标签（列名）的列中缺少的值将替换为pandas.Series值。与pandas.Series标签不对应的列仍然缺少值。

s_for_fill = pd.Series(['ZZZ', 100], index=['name', 'age'])
print(s_for_fill)
# name    ZZZ
# age     100
# dtype: object

print(df.fillna(s_for_fill))
#       name    age state  point  other
# 0    Alice   24.0    NY    NaN    NaN
# 1      ZZZ  100.0   NaN    NaN    NaN
# 2  Charlie  100.0    CA    NaN    NaN
# 3     Dave   68.0    TX   70.0    NaN
# 4    Ellen  100.0    CA   88.0    NaN
# 5    Frank   30.0   NaN    NaN    NaN

用每列的平均值，中位数，众数等替换

可以使用mean（）方法计算每列的平均值。结果是pandas.Series。缺失值将被排除并计算。

print(df.mean())
# age      40.666667
# point    79.000000
# other          NaN
# dtype: float64

如果将此pandas.Series指定为fillna（）的参数，则如上所述，将相应列中的缺失值替换为平均值。

print(df.fillna(df.mean()))
#       name        age state  point  other
# 0    Alice  24.000000    NY   79.0    NaN
# 1      NaN  40.666667   NaN   79.0    NaN
# 2  Charlie  40.666667    CA   79.0    NaN
# 3     Dave  68.000000    TX   70.0    NaN
# 4    Ellen  40.666667    CA   88.0    NaN
# 5    Frank  30.000000   NaN   79.0    NaN

同样，如果要替换中位数，请使用中位数（）方法。在偶数的情况下，两个中心值的平均值是中值。

print(df.fillna(df.median()))
#       name   age state  point  other
# 0    Alice  24.0    NY   79.0    NaN
# 1      NaN  30.0   NaN   79.0    NaN
# 2  Charlie  30.0    CA   79.0    NaN
# 3     Dave  68.0    TX   70.0    NaN
# 4    Ellen  30.0    CA   88.0    NaN
# 5    Frank  30.0   NaN   79.0    NaN

最频繁值的取得。mode（）返回pandas.DataFrame，因此iloc [0]将第一行作为pandas.Series。

print(df.fillna(df.mode().iloc[0]))
#       name   age state  point  other
# 0    Alice  24.0    NY   70.0    NaN
# 1    Alice  24.0    CA   70.0    NaN
# 2  Charlie  24.0    CA   70.0    NaN
# 3     Dave  68.0    TX   70.0    NaN
# 4    Ellen  24.0    CA   88.0    NaN
# 5    Frank  30.0    CA   70.0    NaN

尽管在此示例中这不是问题，但是诸如mean（）之类的方法可能会返回意外的值，因为默认情况下它们不仅尝试处理数字列，而且还尝试处理其他类型的列。如果参数numeric_only = True，则目标仅限于数字列。同样在这种情况下，布尔类型列也被处理为True = 1，False = 0。

替换为上一个或下一个值

通过使用method参数，可以替换之前和之后的值，而不是指定的值。如果method =‘ffill’，它将被以前的值替换；如果method =‘bfill’，将被后面的值替换。对于时间序列数据很有用。

print(df.fillna(method='ffill'))
#       name   age state  point  other
# 0    Alice  24.0    NY    NaN    NaN
# 1    Alice  24.0    NY    NaN    NaN
# 2  Charlie  24.0    CA    NaN    NaN
# 3     Dave  68.0    TX   70.0    NaN
# 4    Ellen  68.0    CA   88.0    NaN
# 5    Frank  30.0    CA   88.0    NaN

print(df.fillna(method='bfill'))
#       name   age state  point  other
# 0    Alice  24.0    NY   70.0    NaN
# 1  Charlie  68.0    CA   70.0    NaN
# 2  Charlie  68.0    CA   70.0    NaN
# 3     Dave  68.0    TX   70.0    NaN
# 4    Ellen  30.0    CA   88.0    NaN
# 5    Frank  30.0   NaN    NaN    NaN

指定连续更换的最大数量

使用参数limit，可以指定连续替换的最大数量。

print(df.fillna(method='bfill', limit=1))
#       name   age state  point  other
# 0    Alice  24.0    NY    NaN    NaN
# 1  Charlie   NaN    CA    NaN    NaN
# 2  Charlie  68.0    CA   70.0    NaN
# 3     Dave  68.0    TX   70.0    NaN
# 4    Ellen  30.0    CA   88.0    NaN
# 5    Frank  30.0   NaN    NaN    NaN

pandas.Series

对于pandas.Series，可以与前面的示例相同的方式进行处理。

s = df['age']
print(s)
# 0    24.0
# 1     NaN
# 2     NaN
# 3    68.0
# 4     NaN
# 5    30.0
# Name: age, dtype: float64

print(s.fillna(100))
# 0     24.0
# 1    100.0
# 2    100.0
# 3     68.0
# 4    100.0
# 5     30.0
# Name: age, dtype: float64

print(s.fillna({1: 100, 4: 0}))
# 0     24.0
# 1    100.0
# 2      NaN
# 3     68.0
# 4      0.0
# 5     30.0
# Name: age, dtype: float64

print(s.fillna(method='bfill', limit=1))
# 0    24.0
# 1     NaN
# 2    68.0
# 3    68.0
# 4    30.0
# 5    30.0
# Name: age, dtype: float64

提取缺失值

提取特定行/列中缺少值的列/行

如果要选择并检查特定列中包含缺失值的行，通过isull（）方法，并通过布尔索引引用进行检查提取。

print(df)
#       name   age state  point  other
# 0    Alice  24.0    NY    NaN    NaN
# 1      NaN   NaN   NaN    NaN    NaN
# 2  Charlie   NaN    CA    NaN    NaN
# 3     Dave  68.0    TX   70.0    NaN
# 4    Ellen   NaN    CA   88.0    NaN
# 5    Frank  30.0   NaN    NaN    NaN

print(df['point'].isnull())
# 0     True
# 1     True
# 2     True
# 3    False
# 4    False
# 5     True
# Name: point, dtype: bool

print(df[df['point'].isnull()])
#       name   age state  point  other
# 0    Alice  24.0    NY    NaN    NaN
# 1      NaN   NaN   NaN    NaN    NaN
# 2  Charlie   NaN    CA    NaN    NaN
# 5    Frank  30.0   NaN    NaN    NaN

选择在特定行中包含缺失值的列时，想法是相同的。使用loc []按行名（行标签）选择，并使用iloc []按位置选择。请参见以下文章。

Pandas获取和修改任意位置的值（at,iat,loc,iloc）

print(df.iloc[2].isnull())
# name     False
# age       True
# state    False
# point     True
# other     True
# Name: 2, dtype: bool

print(df.loc[:, df.iloc[2].isnull()])
#     age  point  other
# 0  24.0    NaN    NaN
# 1   NaN    NaN    NaN
# 2   NaN    NaN    NaN
# 3  68.0   70.0    NaN
# 4   NaN   88.0    NaN
# 5  30.0    NaN    NaN

提取至少包含一个缺失值的行/列

当提取包含至少一个缺失值的行/列时，而不是确定特定的行/列。

df2 = df.dropna(how='all').dropna(how='all', axis=1)
print(df2)
#       name   age state  point
# 0    Alice  24.0    NY    NaN
# 2  Charlie   NaN    CA    NaN
# 3     Dave  68.0    TX   70.0
# 4    Ellen   NaN    CA   88.0
# 5    Frank  30.0   NaN    NaN

pandas.DataFrame isnull（）方法确定每个元素是否为缺失值，并返回为True或False的pandas.DataFrame。

print(df2.isnull())
#     name    age  state  point
# 0  False  False  False   True
# 2  False   True  False   True
# 3  False  False  False  False
# 4  False   True  False  False
# 5  False  False   True   True

如果任何行或列包含True，则any方法将返回True。如果参数axis= 1，则在该行上执行处理。

print(df2.isnull().any(axis=1))
# 0     True
# 2     True
# 3    False
# 4     True
# 5     True
# dtype: bool

print(df2[df2.isnull().any(axis=1)])
#       name   age state  point
# 0    Alice  24.0    NY    NaN
# 2  Charlie   NaN    CA    NaN
# 4    Ellen   NaN    CA   88.0
# 5    Frank  30.0   NaN    NaN

提取列时也是如此。如果any（）的参数轴设置为0，则对列执行处理。可以省略，因为默认值为axis = 0。

print(df2.isnull().any())
# name     False
# age       True
# state     True
# point     True
# dtype: bool

print(df2.loc[:, df2.isnull().any()])
#     age state  point
# 0  24.0    NY    NaN
# 2   NaN    CA    NaN
# 3  68.0    TX   70.0
# 4   NaN    CA   88.0
# 5  30.0   NaN    NaN

总结

到此这篇关于Python Pandas删除替换并提取其中的缺失值NaN(dropna,fillna,isnull)的文章就介绍到这了,更多相关Pandas删除替换提取缺失值NaN内容请搜索我们以前的文章或继续浏览下面的相关文章希望大家以后多多支持我们！

pandas中NaN缺失值的处理方法

本文主要介绍了pandas中NaN缺失值的处理方法,主要有两种方法,具体如下: import pandas as pd 缺失值处理两种方法: 删除含有缺失值的样本替换/插补处理缺失值为NaN 先判断数据中是否存在NaN,通过下面两个方法中任意一个 pd.isnull(dataframe) # dataframe为数据如果数据中存在NaN返回True,如果没有就返回False pd.notnull(dataframe) 该方法与isnull相反 any() 和 all() ""&
Python Pandas删除替换并提取其中的缺失值NaN(dropna,fillna,isnull)

目录前言 Pandas中缺少值NaN的介绍将缺失值作为Pandas中的缺少值NaN 缺少值NaN的删除方法删除所有值均缺失的行/列删除至少包含一个缺失值的行/列根据不缺少值的元素数量删除行/列删除特定行/列中缺少值的列/行 pandas.Series 替换(填充)缺失值用通用值统一替换为每列替换不同的值用每列的平均值,中位数,众数等替换替换为上一个或下一个值指定连续更换的最大数量 pandas.Series 提取缺失值提取特定行/列中缺少值的列/行提取至少包含一个缺失值
python pandas 如何替换某列的一个值

摘要:本文主要是讲解怎么样替换某一列的一个值. 应用场景: 假如我们有以下的数据集: 我们想把里面不是pre的字符串全部换成Nonpre,我们要怎么做呢? 做法很简单. df['col2']=df['col1'] df.loc[df['col1'] !=' pre','col2']=Nonpre 以上这篇python pandas 如何替换某列的一个值就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持我们.
Python pandas删除指定行/列数据的方法实例

目录 1.滤除缺失数据dropna() 1)滤除含有NaN值的所有行 2)滤除含有NaN值的所有列 3)滤除元素都是NaN值的行 4)滤除元素都是NaN值的列 5)滤除指定列中含有缺失的行 2.删除重复值 drop_duplicates() 1)keep=“first” 2)keep=“last” 3)keep=False 4)删除指定列中重复项对应的行 3.根据指定条件删除行列drop() 1).删除指定列 2).删除指定行总结 1.滤除缺失数据dropna() import pandas
Python Pandas实现数据分组求平均值并填充nan的示例

Python实现按某一列关键字分组,并计算各列的平均值,并用该值填充该分类该列的nan值. DataFrame数据格式 fillna方式实现 groupby方式实现 DataFrame数据格式以下是数据存储形式: fillna方式实现 1.按照industryName1列,筛选出业绩 2.筛选出相同行业的Series 3.计算平均值mean,采用fillna函数填充 4.append到新DataFrame中 5.循环遍历行业名称,完成2,3,4步骤 factordatafillna = pd.
Python Pandas中缺失值NaN的判断,删除及替换

目录前言 1. 检查缺失值NaN 2. Pandas中NaN的类型 3. NaN的删除 dropna() 3.1 删除所有值均缺失的行/列 3.2 删除至少包含一个缺失值的行/列 3.3 根据不缺少值的元素数量删除行/列 3.4 删除特定行/列中缺少值的列/行 4. 缺失值NaN的替换(填充) fillna() 4.1 用通用值统一替换 4.2 为每列替换不同的值 4.3 用每列的平均值,中位数,众数等替换 4.4 替换为上一个或下一个值总结前言当使用pandas读取csv文件时,如果元
python pandas数据处理之删除特定行与列

目录 dropna() 方法过滤任何含有缺失值的行方法一:dropna() 其他参数解析方法二:替换并删除,Python pandas 如果某列值为空,过滤删除所在行数据总结 dropna() 方法过滤任何含有缺失值的行 pandas.DataFrame里,如果一行数据有任意值为空,则过滤掉整行,这时候使用dropna()方法是合适的.下面的案例,任意列只要有一个为空数据,则整行都干掉.但是我们常常遇到的情况,是根据一个指标(一列)数据的情况,去过滤行数据,类似Excel里面的过滤漏斗,怎
python pandas消除空值和空格以及 Nan数据替换方法

在人工采集数据时,经常有可能把空值和空格混在一起,一般也注意不到在本来为空的单元格里加入了空格.这就给做数据处理的人带来了麻烦,因为空值和空格都是代表的无数据,而pandas中Series的方法notnull()会把有空格的数据也纳入进来,这样就不能完整地得到我们想要的数据了,这里给出一个简单的方法处理该问题. 方法1: 既然我们认为空值和空格都代表无数据,那么可以先得到这两种情况下的布尔数组. 这里,我们的DataFrame类型的数据集为df,其中有一个变量VIN,那么取得空值和空格的布尔数组
删除python pandas.DataFrame 的多重index实例

如下dataframe想要删除多层index top1000[:10] name sex births year prop year sex 1880 F 0 Mary F 7065 1880 0.077643 1 Anna F 2604 1880 0.028618 2 Emma F 2003 1880 0.022013 3 Elizabeth F 1939 1880 0.021309 4 Minnie F 1746 1880 0.019188 5 Margaret F 1578 1880 0.
Python Pandas 对列/行进行选择，增加，删除操作

一.列操作 1.1 选择列 d = {'one' : pd.Series([1, 2, 3], index=['a', 'b', 'c']), 'two' : pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd'])} df = pd.DataFrame(d) print (df ['one']) # 选择其中一列进行显示,列长度为最长列的长度 # 除了 index 和数据,还会显示列表头名,和数据类型运行结果: a 1.0 b
python对文档中元素删除,替换操作

pthon更换文档中某元素: with open('E:\\桌面\\train.txt', 'r') as f: lines = f.readlines() with open('E:\\桌面\\1704.txt', 'a') as ff: # 此处 w 和 a,均可,反正是新建的临时文件,文件不存在时会自动创建 for line in lines: # kv = line.strip().split(' ') kv = line.split(

Python Pandas删除替换并提取其中的缺失值NaN(dropna,fillna,isnull)

目录

前言

Pandas中缺少值NaN的介绍

将缺失值作为Pandas中的缺少值NaN

缺少值NaN的删除方法

删除所有值均缺失的行/列

删除至少包含一个缺失值的行/列

根据不缺少值的元素数量删除行/列

删除特定行/列中缺少值的列/行

pandas.Series

替换（填充）缺失值

用通用值统一替换

为每列替换不同的值

用每列的平均值，中位数，众数等替换

替换为上一个或下一个值

指定连续更换的最大数量

pandas.Series

提取缺失值

提取特定行/列中缺少值的列/行

提取至少包含一个缺失值的行/列

总结

相关推荐

随机推荐