利用Python进行数据分析| 5 pandas入门

利用Python进行数据分析| 5 pandas入门

Series:⼀种类似于⼀维数组的对象,它由⼀组数据)以及⼀组与之相关的数据标签(即索引)组成。Series的字符串表现形式为:索引在左边,值在右边。与普通NumPy数组相⽐,可以通过索引的⽅式选取Series中的单个或⼀组值。

Series最重要的⼀个功能是,它会根据运算的索引标签⾃动对⻬数据。Series对象本身及其索引都有⼀个name属性,该属性跟pandas其他的关键功能关系⾮常密切。

DataFrame:一个表格型的数据结构,含有一组有序的列,每列可以是不同的值类型。既有行索引又有列索引。数据是以一个或多个二维块存放的。

head()方法:选取前五行的数据

将列表或数组赋值给某个列时,其⻓度必须跟DataFrame的⻓度相匹配。如果赋值的是⼀个Series,就会精确匹配DataFrame的索引,所有的空位都将被填上缺失值。

del用于删除特定的列 del frame[]

如果嵌套字典传给DataFrame,pandas就会被解释为:外层字典的键作为列,内层键则作为⾏索引

values属性会以⼆维ndarray的形式返回DataFrame中的数据

索引对象:

Pandas的索引对象负责管理轴标签和其他元数据,Index对象是不可变的,因此⽤户不能对其进行修改

pd.Index生成索引对象

与python的集合不同,pandas的Index可以包含重复的标签,选择重复的标签,会显示所有的结果

pandas的基本功能

drop()删除某一列

 

用loc(轴标签)和iloc(整数索引)进行选取

 

算术运算和数据对齐

可以对不同索引的对象进行算术运算。在将对象相加时,如果存在不同的索引对,则结果的索引就是该索引对的并集

Dataframe和Series之间的运算