1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
|
import pandas as pd
# 读取时跳过错误行
df = pd.read_csv('dataset.csv', index_col=False, encoding='GB18030', on_bad_lines = 'skip')
# 删除一列
df1 = df.drop(['A'], axis=1)
# 删除一行
df1 = df.drop([1])
# 列不重复值
df['col'].unique()
# 删除重复行
df.drop_duplicates(keep='first', inplace=True)
# 筛选
df1 = df[df['col']=='val']
# 分组统计
df.groupby(['col1']).size().reset_index(name='counts')
# 乱序(行维度)
df = df.sample(frac=1).reset_index(drop=True)
# 保存时忽略序号
df.to_csv("output.csv", index=False)
# 导出Excel
df.to_excel('output.xlsx')
|