这篇教程使用pandas或numpy处理数据中的空值(np.isnan()/pd.isnull())写得很实用,希望能帮到您。 最近在做数据处理的时候,遇到个让我欲仙欲死的问题,那就是数据中的空值该如何获取。 我的目的本来是获取数据中的所有非零且非空值,然后再计算获得到的所有数据计算均值,再用均值把0和空值填上。这个操作让我意识到了i is None/np.isnan(i)/i.isnull()之间的差别,再此做简单介绍: 1.关于np.nan:先明确一个问题,即空值的产生只有np.nan()一种方法。 # np.nan()的一些奇妙性质: np.nan == np.nan>>> False np.isnan(np.nan)>>> True np.nan is None>>> False type(np.nan)>>> float 总结一下:np.nan不是一个“空”对象,用 i is None判断是False; 对某个值是否为空值进行判断,只能用np.isnan(i)函数,万万不可用 i == np.nan()来做,否则你会死的很惨的,因为空值并不能用判断相等的“==”正确识别(上例前两条); np.nan非空对象,其类型为基本数据类型float(是不是很神奇,我也不知道为什么要这样设计) 2.np.isnan()和pd.isnull()何时使用:# 首先创建一个DataFrame:bb = pd.DataFrame({'a':[0,1,2,np.nan]})bb >>> a 0 0.0 1 1.0 2 2.0 3 NaN # 先测试一下np.isnan()np.isnan(bb)>>> a 0 False 1 False 2 False 3 True# 值得一提的是,如果想获悉整个DataFrame有无空值,可以在此基础上这样做: np.isnan(bb).all()>>> a False dtype: bool # 这行是指返回值的dtype # 再测试一下isnull()pd.isnull(bb)>>> a 0 False 1 False 2 False 3 True 由上可见,其实np.isnan()和pd.isnull()都可以对不论是DataFrame、Python list还是仅仅一个数值进行空值检测。但一般在实际应用中,np.isnan()多用于单个值的检验,pd.isnull()用于对一个DataFrame或Series(整体)的检验。 此外,根据pandas官方文档和源代码,pandas提供的另一个函数pd.isna()与pd.isnull()完全一样。 上面提到的any()/all()函数,请见pandas文档: https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.all.html#pandas.DataFrame.all https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.any.html#pandas.DataFrame.any 其他与空值检测或删除相关的函数还有:notna()、fillna()、dropna()等等。实战中应灵活使用。 补充:numpy中的nan(判断一个元素等于nan, 及nan安全函数 ) Nunpy中的NaN多种方式创建nan(空值)import numpy as npnp.nannannp.NaNnannp.NANnan 判断是否存在空值x = np.array([1, 1, 8, np.nan, 10])np.nan in xFalsenp.isin(np.nan, x)array(False)1 in xTruenp.isin(1, x)array(True)np.isnan(x)array([False, False, False, True, False])x[-2] == np.nan, np.isnan(x[-2])(False, True) 在np中nan需要用isnan这个函数来识别,还要注意: xarray([ 1., 1., 8., nan, 10.]) x 中所有的元素都变成了浮点型,这是因为nan是浮点型的。 nan安全函数np.mean(x)nannp.nanmean(x)5.0 此外max, min, median等都是默认非nan安全的,需要加上nan来标记nan安全。 ps:pandas中是默认nan安全的。 补充:Python 处理DataFrame数据 pd.isnull() np.isnan()的方式 数据处理时,经常会遇到处理数据中的空值,涉及几个常用函数,pd.isnull(),pd.notnull(),np.isnan(),pd.notna(),pd.isna(),pd.fillna()、pd.dropna()等等. 本文关注pd.isnull(),pd.notnull(),np.isnan(),pd.notna(),pd.isna()。 总结: 由下可知,np.isnan()和pd.isnull()都可以对不论是DataFrame、Python list还是仅仅一个数值进行空值检测。但一般在实际应用中,np.isnan()多用于单个值的检验,pd.isnull()用于对一个DataFrame或Series(整体)的检验。 1.pd.isnull()pd.isnull()可以对不论是DataFrame、Python list还是仅仅一个数值进行空值检测。但一般在实际应用中,pd.isnull()用于对一个DataFrame或Series(整体)的检验。 此外,根据pandas官方文档和源代码,pandas提供的另一个函数pd.isna()与pd.isnull()完全一样。 # 首先创建一个DataFrame:df = pd.DataFrame({'a':[0,1,2,np.nan]})df >>> a 0 0.0 1 1.0 2 2.0 3 NaN # 测试isnull()pd.isnull(df)>>> a 0 False 1 False 2 False 3 True # 测试isna()pd.isna(df)>>> a 0 False 1 False 2 False 3 True # 测试notnull()pd.notnull(df)>>> a 0 True 1 True 2 True 3 False # 测试notna()pd.notna(df)>>> a 0 True 1 True 2 True 3 False 2.np.nan()判断是否为np.nan()。 np.nan不是一个“空”对象,对某个值是否为空值进行判断,只能用np.isnan(i)函数。 np.nan非空对象,其类型为基本数据类型float。 np.nan()可以对不论是DataFrame、Python list还是仅仅一个数值进行空值检测。但一般在实际应用中,np.nan()多用于单个值的检验。 np.nan == np.nan>>> False np.isnan(np.nan)>>> True type(np.nan)>>> float np.nan is None>>> False np.isnan(df)>>> a 0 False 1 False 2 False 3 True 以上为个人经验,希望能给大家一个参考,也希望大家多多支持51zixue.net。 PyQt5爬取12306车票信息程序的实现 MATLAB 全景图切割及盒图显示的实现步骤 |