您当前的位置:首页 > IT编程 > python
| C语言 | Java | VB | VC | python | Android | TensorFlow | C++ | oracle | 学术与代码 | cnn卷积神经网络 | gnn | 图像修复 | Keras | 数据集 | Neo4j | 自然语言处理 | 深度学习 | 医学CAD | 医学影像 | 超参数 | pointnet | pytorch | 异常检测 | Transformers | 情感分类 | 知识图谱 |

自学教程:pandas分组排序 如何获取第二大的数据

51自学网 2021-10-30 22:47:16
  python
这篇教程pandas分组排序 如何获取第二大的数据写得很实用,希望能帮到您。

Python用来做数据分析很方便,网上很多关于找数据中第二大的方法,但是大多数都是关于SQL的,于是我挑战一下用Python来做这件事(主要是SQL写的不好>_<),上代码。

1、数据我是自己编的

在实际工作中应该从数据库中导入数据,如何从数据库导出数据,我之后会补充。

import pandas as pddf = pd.DataFrame([    {"class": 1, "name": "aa", "english": 120},    {"class": 1, "name": "bb", "english": 110},    {"class": 1, "name": "cc", "english": 110},    {"class": 1, "name": "dd", "english": 110},    {"class": 2, "name": "ee", "english": 120},    {"class": 2, "name": "ff", "english": 140},    {"class": 2, "name": "gg", "english": 130},    {"class": 2, "name": "hh", "english": 130},    {"class": 3, "name": "tt", "english": 130},    {"class": 4, "name": "xx", "english": 130},    {"class": 4, "name": "yy", "english": 130},    {"class": 5, "name": "zz", "english": None},  ])

2、分组取第二大的数据

def fun(df):  # english数据去重  sort_set = set(df["english"].values.tolist())  if len(sort_set)<=1:    # 数据量小于等于1,无法取到第二大的数据    return None  else:    # 取english中第二大的值    sort_value = sorted(sort_set,reverse=True)[1]    temp_df = df[df["english"]==sort_value]    return temp_df df = df.groupby(by=["class"]).apply(fun).reset_index(drop=True)print(df)

结果如下:

  class name english0 1 bb 110.01 1 cc 110.02 1 dd 110.03 2 gg 130.04 2 hh 130.0

3、写完啦,就这么简单

当然这还可以改为取最大、取最小、取第三大、等等......

补充:pandas 按某一列A排序,按B和C两列分组,选择分组后A列值最大的行

pandas 按某一列A排序,按B和C两列分组,选择分组后A列值最大的行

一、需求

按 updateTime 列倒序排序,按 B 和 C 两列分组,分组后选择最后更新的时间的那一行,并将结果加上新索引。

二、代码

import pandas as pddata = pd.read_csv('test.csv')df = pd.DataFrame(data)df = df.sort_values('updateTime', ascending=False).groupby(['B','C']).first().reset_index()

first() 函数代表选择第一行,如果要选取多行,可以使用 head() 函数: head(5)表示选择前五行。

如下例:

import pandas as pd data = pd.read_csv('test.csv',header = 0)df = pd.DataFrame(data) # 按日期分组,分组后对 value 列从大到小排序,取每组前十行df = df.groupby('date', group_keys=False).apply(lambda x: x.sort_values('value', ascending=False)).groupby('date').head(10).reset_index()

在不能直接使用sort_values() 函数时,使用 apply() 函数。

以上为个人经验,希望能给大家一个参考,也希望大家多多支持51zixue.net。如有错误或未考虑完全的地方,望不吝赐教。


使用pandas忽略行列索引,纵向拼接多个dataframe
pandas 实现将两列中的较大值组成新的一列
万事OK自学网:51自学网_软件自学网_CAD自学网自学excel、自学PS、自学CAD、自学C语言、自学css3实例,是一个通过网络自主学习工作技能的自学平台,网友喜欢的软件自学网站。