您当前的位置:首页 > 互联网教程

pandas 的四种常用函数

发布时间:2025-05-19 15:13:09    发布人:远客网络

pandas 的四种常用函数

一、pandas 的四种常用函数

1、 obj:参与合并的对象,如:[df1, df2]

2、 join:合并方式,outer为外链接,取交集

3、 ignore_index:是否忽略原来DataFrame/Series对象的索引,重新排列

4、 keys:为数据源设置多级索引标签

5、 levels:如果设置keys的话,指定用作层次化索引各级别(内层索引)上的索引

6、 names:用于创建分层级别的名称,如果设置keys或levels的话

7、 verify_integrity:检查是否出现重复索引,引发异常

8、 left:参与合并的左侧DataFrame

9、 right:参与合并的右侧DataFrame

10、 how:连接方式:‘inner’(默认,交集);还有,‘outer’、‘left’、‘right’

11、 on:用于连接的列名,必须同时存在于左右两个DataFrame对象中,如果位指定,则以left和right列名的交集作为连接键

12、 left_on:左侧DataFarme中用作连接键的列

13、 right_on:右侧DataFarme中用作连接键的列

14、 left_index:将左侧的行索引用作其连接键

15、 right_index:将右侧的行索引用作其连接键

16、 sort:根据连接键对合并后的数据进行排序,默认为True。有时在处理大数据集时,禁用该选项可获得更好的性能

17、 suffixes:字符串值元组,用于追加到重叠列名的末尾,默认为(‘_x’,‘_y’).例如,左右两个DataFrame对象都有‘data’,则结果中就会出现‘data_x’,‘data_y’

18、 copy:设置为False,可以在某些特殊情况下避免将数据复制到结果数据结构中。默认总是赋值

19、用法入门比较简单,前人的博客写的蛮详尽了

20、 Pandas详解十五之利用GroupBy技术进行分组

21、 data:用于制作数据透视表的 DataFrame的某列数据,输入列名即可

22、 aggfunc:汇总计算方法,默认为(mean)可以用字典为不同的列指定不同的累计函数,此时data可以缺失

23、 margins:是否对边际进行aggfunc汇总

二、Python3 pandas (7) 行、列重排序 reindex()

1、行、列重排序是数据分析中常见的操作,其中reindex()函数主要用于调整DataFrame中行或列的顺序。

2、假设我们有一个DataFrame,其默认索引为从0开始的整数序列。

3、若将某列设为索引,使用set_index()函数即可实现。

4、相比之下,reindex()函数则用于调整现有行或列的顺序,而非重新设置索引。

5、同样,reindex()可用于调整列顺序,且在新索引名或列名中出现未出现的值时,将自动添加新行或列,并填充空值。

6、若在添加新行或列时,希望填充特定值,可通过fill_value参数实现。

7、使用reindex()可添加新行或列,而之前讨论的loc[]方法同样具备此功能。但reindex()需明确表示所有行索引或列名,故在处理大量行列时,其操作更为直接。

8、reindex()与loc[]相比,当需要根据上下文填充空值时,其灵活性较高。例如,通过设置method参数,可选择使用'bfill'或'ffill'进行填充。

9、这里的'bfill'代表'backward fill','ffill'代表'forward fill'。但使用此参数时,要求索引顺序为升序或降序,否则将引发错误。

三、Pandas中时间窗函数rolling的使用

1、在Pandas的世界里,时间窗函数rolling是一项强大的工具,其核心思想是围绕一个数据点构建一个动态的区间,借此增强数据分析的精度。窗口就像一个移动的观察镜,它不是一次性移动整个区间,而是逐个单位向前滑动。想象一下,我们设定窗口大小为3,即每个分析点会基于它前三个数据点计算平均值。例如,当index为0和1时,由于数据不足,它们的值暂为NaN。到了index2,它的值则是前三个数的平均,即(index0+ index1+ index2)/ 3。index3的值则以此类推,是(index1+ index2+ index3)/ 3。

2、rolling函数的参数详细解释如下:

3、窗口大小(window):决定每次计算所考虑的数据点数量。

4、min_periods:可选参数,指定在计算平均值或累计和时,需要的最小非缺失数据点数量。默认为1,如果设为2,至少需要两个非NaN值才会进行计算。

5、center:布尔值,如果设为True,窗口会包含中心的值,即计算点在窗口的中间位置。

6、win_type:可选的窗口函数类型,如线性、移动平均等,用于定义窗口内数据的处理方式。

7、on:如果数据具有时间序列,可以指定列名以按特定列进行滚动计算。

8、axis:0表示沿着行(默认)滚动,1表示沿着列滚动。

9、closed:指定窗口的边界,'left'(默认)表示包括开始但不包括结束,'right'则相反。

10、通过熟练运用rolling函数,我们可以对时间序列数据进行灵活、精确的分析,从而揭示隐藏在数据背后的动态趋势和规律。