利用Python进行数据分析| 5 pandas入门
Series:⼀种类似于⼀维数组的对象,它由⼀组数据)以及⼀组与之相关的数据标签(即索引)组成。Series的字符串表现形式为:索引在左边,值在右边。与普通NumPy数组相⽐,可以通过索引的⽅式选取Series中的单个或⼀组值。
Series最重要的⼀个功能是,它会根据运算的索引标签⾃动对⻬数据。Series对象本身及其索引都有⼀个name属性,该属性跟pandas其他的关键功能关系⾮常密切。
DataFrame:一个表格型的数据结构,含有一组有序的列,每列可以是不同的值类型。既有行索引又有列索引。数据是以一个或多个二维块存放的。
head()方法:选取前五行的数据
将列表或数组赋值给某个列时,其⻓度必须跟DataFrame的⻓度相匹配。如果赋值的是⼀个Series,就会精确匹配DataFrame的索引,所有的空位都将被填上缺失值。
del用于删除特定的列 del frame[]
如果嵌套字典传给DataFrame,pandas就会被解释为:外层字典的键作为列,内层键则作为⾏索引
values属性会以⼆维ndarray的形式返回DataFrame中的数据
索引对象:
Pandas的索引对象负责管理轴标签和其他元数据,Index对象是不可变的,因此⽤户不能对其进行修改
pd.Index生成索引对象
与python的集合不同,pandas的Index可以包含重复的标签,选择重复的标签,会显示所有的结果
pandas的基本功能
drop()删除某一列
用loc(轴标签)和iloc(整数索引)进行选取
算术运算和数据对齐
可以对不同索引的对象进行算术运算。在将对象相加时,如果存在不同的索引对,则结果的索引就是该索引对的并集
Dataframe和Series之间的运算