您当前的位置:首页 > IT编程 > python
| C语言 | Java | VB | VC | python | Android | TensorFlow | C++ | oracle | 学术与代码 | cnn卷积神经网络 | gnn | 图像修复 | Keras | 数据集 | Neo4j | 自然语言处理 | 深度学习 | 医学CAD | 医学影像 | 超参数 | pointnet | pytorch | 异常检测 | Transformers | 情感分类 | 知识图谱 |

自学教程:pandas中DataFrame检测重复值的实现

51自学网 2021-10-30 22:37:35
  python
这篇教程pandas中DataFrame检测重复值的实现写得很实用,希望能帮到您。

本文详解如何使用pandas查看dataframe的重复数据,判断是否重复,以及如何去重

DataFrame.duplicated(subset=None, keep='first')

subset:如果你认为几个字段重复,则数据重复,就把那几个字段以列表形式放到subset后面。默认是所有字段重复为重复数据。

keep:

  • 默认为'first' ,也就是如果有重复数据,则第一条出现的定义为False,后面的重复数据为True。
  • 如果为'last',也就是如果有重复数据,则最后一条出现的定义为False,后面的重复数据为True。
  • 如果为False,则所有重复的为True

下面举例

df = pd.DataFrame({    'brand': ['Yum Yum', 'Yum Yum', 'Indomie', 'Indomie', 'Indomie'],    'style': ['cup', 'cup', 'cup', 'pack', 'pack'],    'rating': [4, 4, 3.5, 15, 5]})df 

在这里插入图片描述

# 默认为keep="first",第一条重复的为False,后面重复的为True# 一般不会设置keep,保持keep为默认值。df.duplicated()结果0    False1     True2    False3    False4    Falsedtype: bool# keep="last",,最后一条重复的为False,后面重复的为Truedf.duplicated(keep="last")结果0     True1    False2    False3    False4    Falsedtype: bool# keep=False,,所有重复的为Truedf.duplicated(keep=False)结果0     True1     True2    False3    False4    Falsedtype: bool# sub是子,subset是子集# 标记只要brand重复为重复值。df.duplicated(subset='brand')结果0    False1     True2    False3     True4     Truedtype: bool# 只要brand重复brand和style重复的为重复值。df.duplicated(subset=['brand','style'])结果0    False1     True2    False3    False4     Truedtype: bool# 显示重复记录,通过布尔索引df[df.duplicated()]

在这里插入图片描述

# 查询重复值的个数。df.duplicated().sum()结果1

到此这篇关于pandas中DataFrame检测重复值的实现的文章就介绍到这了,更多相关pandas DataFrame检测重复值内容请搜索51zixue.net以前的文章或继续浏览下面的相关文章希望大家以后多多支持51zixue.net!


python 中的@运算符使用
使用python批量生成insert语句的方法
万事OK自学网:51自学网_软件自学网_CAD自学网自学excel、自学PS、自学CAD、自学C语言、自学css3实例,是一个通过网络自主学习工作技能的自学平台,网友喜欢的软件自学网站。