"import pandas as pd 读网页表单 table_df = pd.read_html(url=“,html=”“) 读 excel html_df = pd.read_excel(path =”',) pandas 读 exc ...."

王快斗

Rpa 7554 号会员
经验分享 • 0 回帖 • 1K 浏览 • 2020-05-28 10:06:21

Pandas 相关

😄 😆 😊 😃 😍 😳
import pandas as pd

读网页表单
table_df = pd.read_html(url=“,html=”“)
读 excel
html_df = pd.read_excel(path =”",)

pandas 读 excel 参数详解

def read_excel(io,
sheet_name=0,
header=0,
names=None,
index_col=None,
parse_cols=None,
usecols=None,
squeeze=False,
dtype=None,
engine=None,
converters=None,
true_values=None,
false_values=None,
skiprows=None,
nrows=None,
na_values=None,
keep_default_na=True,
verbose=False,
parse_dates=False,
date_parser=None,
thousands=None,
comment=None,
skip_footer=0,
skipfooter=0,
convert_float=True,
mangle_dupe_cols=True,
**kwds):

io：字符串，文件的路径对象
usecols：列表，选取自己需要的那几列
sheet_name：None、string、int、字符串列表或整数列表，默认为 0。字符串用于工作表名称, 整数用于零索引工作表位置, 字符串列表或整数列表用于请求多个工作表，为 None 时获取所有工作表。
header：指定作为列名的行，默认 0，即取第一行的值为列名。数据为列名行以下的数据；若数据不含列名，则设定 header = None。
names：默认为 None，要使用的列名列表，如不包含标题行，应显示传递 header=None。
index_col：指定列为索引列，默认 None 列（0 索引）用作 DataFrame 的行标签。
usecols：int 或 list，默认为 None。
squeeze：boolean，默认为 False, 如果解析的数据只包含一列，则返回一个 Series
dtype：列的类型名称或字典，默认为 None。数据或列的数据类型。例如 {‘a’：np.float64，‘b’：np.int32} 使用对象保存存储在 Excel 中的数据而不解释 dtype。如果指定了转换器，则它们将应用于 dtype 转换的 INSTEAD。
skiprows：省略指定行数的数据, 从第一行开始。
skipfooter：省略指定行数的数据，从尾部数的行开始。
dtype: 字典类型 {‘列名 1’: 数据类型，‘列名’: 数据类型}，设定指定列的数据类型。