大家好,欢迎来到IT知识分享网。
Numpy和Pandas是Python在AI领域里最最核心的两个库,对这两个库的掌握程度直接决定了你用Python进军AI的困难程度,我有另外一个合集专门是练习Numpy的,有兴趣的可以去看一下,在本合集中,我将用 10 篇左右的小文章将Pandas的理论知识让大家吃透,至于Pandas的100练,我也会开一个新的合集。
这篇文章我只讲跟Pandas的Series相关的话题,因为到现在我才意识到,Pandas的两大数据结构,DataFrame是基于Series构建的,而Series又是基于Numpy构建的,所以Series就是连接Pandas和Numpy的桥梁!
先看看Pandas中的Series长什么样:
上面两段代码分别用了一个整数型的Python列表和字符串型的Python列表构建了Pandas中的Series对象。
上面的代码是先通过Python的列表构建了一个Numpy数组,然后又用Numpy数组构建了一个Pandas的Series对象。
上面的代码直接通过一个Python的字典构建了一个新的Pandas的Series对象,通过这三种构建方式,你是否已对Series的“外观”有了感觉?
Series的基本概念【序列】
Pandas库的Series数据结构是一个一维标签化数组,可以存储任意数据类型(整数、字符串、浮点数、Python对象等)。每个元素都有一个与之关联的标签,也称为索引。默认情况下,每个元素的索引是从0开始的整数序列,但是也可以明确地指定索引的值。
Pandas的Series数据结构是基于Numpy数组构建的。这意味着Series在内部使用Numpy数组来存储数据,因此它继承了Numpy数组的许多特性,如元素级运算、广播等。但是,与Numpy数组不同的是,Series能够存储具有不同数据类型的元素,并且每个元素都有一个标签(在Numpy数组中,所有元素必须具有相同的数据类型,并且没有标签)。
Series的应用场景:
- 时间序列数据:Series非常适合处理时间序列数据,比如股票价格、天气数据等。可以将时间戳设置为索引,方便地进行时间序列相关的操作,如时间范围切片、频率转换等。
- 任何需要一维标签数组的场景:无论是存储人员名单、考试分数还是其他任何类型的有序或无序数据,Series都能够提供一个方便且效率高的解决方案。
- 替代Python字典:与字典相比,Series提供了更丰富的功能和更高的性能,特别是在处理大数据集时。可以使用Series来进行快速的查找、更新和删除操作。
Pandas的Series提供了一个灵活且高效的数据结构,适用于处理各种一维数据,尤其是时间序列数据。借助于其基于Numpy的设计,Series不仅能够提供高性能的数值计算,还能够轻松地与其他Pandas数据结构(如DataFrame)集成,使得数据处理和分析变得更加方便快捷。
Series的选择操作
我们先构建一个新的Series对象,然后在其基础之上看一看Series都有哪些常用的基本操作:
按索引选择一个:
选择一个时相当于直接去取值,可以使用经典的[]方法,也可以使用内置的loc方法。
按位置选择一个:
当要按位置进行选择的时候,经典的[]操作便不再生效,需要使用loc函数的位置变体iloc函数。
标签切片选择:
标签切片选择时可使用经典的[]切片方式,也可以使用loc函数的切片方式。
位置切片选择:
位置切片选择时采用的方式跟标签切片选择的方式类似,只不过要明白loc函数和iloc函数的区别,iloc前面添加了一个字母i用于表示“位置”,故凡是涉及到通过位置的相关操作,需要使用 iloc函数,凡是需要通过标签的操作,需要使用 loc函数。
Series的赋值操作
上面的代码通过使用[]和loc函数的方式,基于标签的选择或基于标签的切片实现了Series的赋值操作。
上面的代码通过位置的方式选择了一个元素或通过位置切片选择了多个元素进行赋值,注意,使用[]进行切片选择在Pandas的当前版本中被视为过期的操作,后续大家在通过位置对Series进行切片选择时,请统一使用iloc函数来完成。
Series的删除
通过使用drop方法可以在传入标签列表的情况下进行Series内部元素的删除,注意drop方法接收的是标签的列表,不支持在此直接进行标签切片进行选择,也不直接支持按位置进行选择,如果想实现切片选择删除或位置选择删除,需要借助比如loc或iloc方法先选择出要删除的元素标签列表,传递进drop方法再进行删除:
Series的排序
Series的排序支持按索引排序,也支持按元素值排序,Pandas给我们提供了两个堪称完美的方法,我们直接使用即可:
Series的基本统计
Series重置索引
在Pandas中,你可以使用 Series.reindex() 方法来重新设置Series的索引。这个方法允许你按照新的索引顺序来调整Series的数据。如果新索引中包含原始Series中不存在的标签,则会在相应的位置上引入缺失值(NaN)。
小结
读到这里,我相信你对Pandas中的Series应该有了一个直观的了解,而且有了一种想现在上手直接去实际操作一下Series的冲动,因为你已经通过对Series的了解发现了Pandas的魅力!你的直觉是对的,如果你也想进军 AI 领域,现在就抓紧实操起来吧!
免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。 本文来自网络,若有侵权,请联系删除,如若转载,请注明出处:https://haidsoft.com/167503.html