Pandas 相关

😄 😆 😊 😃 😍 😳
import pandas as pd

读网页表单
table_df = pd.read_html(url=“,html=”“)
读 excel
html_df = pd.read_excel(path =”",)

pandas 读 excel 参数详解

def read_excel(io,
sheet_name=0,
header=0,
names=None,
index_col=None,
parse_cols=None,
usecols=None,
squeeze=False,
dtype=None,
engine=None,
converters=None,
true_values=None,
false_values=None,
skiprows=None,
nrows=None,
na_values=None,
keep_default_na=True,
verbose=False,
parse_dates=False,
date_parser=None,
thousands=None,
comment=None,
skip_footer=0,
skipfooter=0,
convert_float=True,
mangle_dupe_cols=True,
**kwds):

io:字符串,文件的路径对象
usecols:列表,选取自己需要的那几列
sheet_name:None、string、int、字符串列表或整数列表,默认为 0。字符串用于工作表名称, 整数用于零索引工作表位置, 字符串列表或整数列表用于请求多个工作表,为 None 时获取所有工作表。
header:指定作为列名的行,默认 0,即取第一行的值为列名。数据为列名行以下的数据;若数据不含列名,则设定 header = None。
names:默认为 None,要使用的列名列表,如不包含标题行,应显示传递 header=None。
index_col:指定列为索引列,默认 None 列(0 索引)用作 DataFrame 的行标签。
usecols:int 或 list,默认为 None。
squeeze:boolean,默认为 False, 如果解析的数据只包含一列,则返回一个 Series
dtype:列的类型名称或字典,默认为 None。数据或列的数据类型。例如 {‘a’:np.float64,‘b’:np.int32} 使用对象保存存储在 Excel 中的数 据而不解释 dtype。如果指定了转换器,则它们将应用于 dtype 转换的 INSTEAD。
skiprows:省略指定行数的数据, 从第一行开始。
skipfooter:省略指定行数的数据,从尾部数的行开始。
dtype: 字典类型 {‘列名 1’: 数据类型,‘列名’: 数据类型},设定指定列的数据类型。