读取Excel
读取Excel
描述:读取目标Excel文件

属性说明
通用属性
- 前置延时- 指可设置组件功能执行之前等待的时间,单位为“ms”
- 后置延时- 指可设置组件功能执行后等待的时间,单位为“ms”
- 备注- 指对组件进行备注说明,以便于理解和快速定位
目标属性
文件路径- 传入需要读取的目标Excel文件的路径,输入为字符串;可点击右侧的文件夹图标进行选择
注意
输入的是Excel文件的绝对路径
手动输入时要确保文件存在,如遇到斜杠转译,可以在路径字符串前添加一个“r”,如*
r'C:/test/data1.xlsx'
*参数也可传入变量进行操作
工作表- 即表格文件的Sheet页,选定读取的目标工作表
注意
可输入工作表的索引值,例如
0
,表示表格文件的第一个Sheet页;输入2
,则表示第三个工作表。输入的数字需要有对应的工作表,否则会抛出异常也可传入工作表名称的字符串,如
'产品详情'
,需要注意区分大小写以及空格,必须保证完全一致如果需要读取所有的工作表,则可以输入
None
;此时返回的便是值为Dataframe的有序字典输入工作表下标或名称组成的列表,读取列表内元素对应的工作表;例如输入
[0,2]
,便是读取表格第一、第三个工作表
header- 指定作为表头的行,输入为整型数据或None
注意
默认为0,表示以读取的第一行作为表头,表头以下数据为数据。例如,若此处输入1,则表头为所读取表格的第二行,第二行以下部分为读取的数据:
若表格数据不含表头,则可设置为
None
,默认列的下标作为表头
skiprows- 从所读取表格的第一行开始,设置省略跳过的行数。默认为None,也就是不跳过行,输入int整型,跳过该整数行;例如输入2,跳过两行,即从表格第三行开始读取
skip_footer- 从末行开始,跳过省略表格的行数。默认为0,不省略末尾的行,输入int整型,从末尾开始跳过该整数行;例如输入2,则可以省略最后两行
converters- 用以设置表格中指定列的数据类型,输入为字典:例如“converters”参数输入{u'视频保存时长':int},定义”视频保存时长”列的数据类型为整型
index_col- 指定列为索引列,默认为None,即不进行设置;也可输入工作表中列的下标,或列名的字符串,其对应类型为int整型和字符串
注意
默认为0,表示以读取的第一行作为表头,表头以下数据为数据。例如,若此处输入1,则表头为所读取表格的第二行,第二行以下部分为读取的数据
若表格数据不含表头,则可设置为
None
,默认列的下标作为表头
names- 参数设置表格中每列的列名
注意
默认为None,即不设置,此时默认“header”参数设置的表头为列名,如果“header”参数也默认为为None,则以列的下标为列名
传入一个有序集合,如列表或元组等,此处输入列表
[1,2,'三','四','5',6]
,有序集合的长度要与读取到的表格的数据列数必须是一致,否则报错,提示长度不匹配
usecols- 设置获取表格的列数,默认为None,获取所有列数。
注意
输入列的下标组成的有序集合如列表或元组,此时只读取列的下标对应的列。例如输入元组(0,1,3),则获取第一列,第二列,以及第四列
还可以输入列字母组成的字符串,以逗号,分隔,冒号:表示取范围。例如,输入字符串'A,C:E'获取的是A列,以及C到E列
parse_dates- 选择是否将数据解析为日期格式,默认为false,即不会将数据解析为字符串,可以调整为true,即将数据解析为日期格式
date_parser: 自定义日期解析函数,若解析为日期时,即会使用设置的日期解析格式函数
na_values- 设置某些值作为缺失值(NaN)。例如,当设置为None时, 那么 pandas 在读取数据时,如果遇到 'NA',就会将其视为缺失值
thousands- 用于设置千位分隔符,例如,你可以设置 thousands设置为
','
,那么 pandas 在读取数据时,就会将,
视为千位分隔符convert_float- 若设置为 True,会尝试将所有数据转换为浮点数类型。设置为false时,则不会进行操作
dtype- 这个参数用于定义数据的类型。例如,你可以将dtype设置为
{'column1': float, 'column2': int}
,那么组件在读取数据时,就会将 'column1' 列的数据转换为浮点数类型,将 'column2' 列的数据转换为整数类型true_values- 这个参数用于定义表示布尔真值的字符串
false_values- 这个参数用于定义表示布尔假值的字符串
engine- 这个参数用于定义用于解析文件的引擎。可选的值有 'xlrd', 'openpyxl', 'odf', 'pyxlsb'。默认值是 'xlrd'
squeeze- 默认为false,即无论数据多少列都返回一个dataframe数据,这个参数如果设为 True,当数据只包含一列时,返回一个 Series
返回值
- 输出至变量- 运行成功后组件会返回读取到的dataframe数据集
使用示例
执行逻辑
添加【读取Excel】组件后,设置要读取的Excel的文件路径以及要读取的工作表,例如读取新建xlsx工作表的sheet1--->也可通过设置属性参数,实现读取操作更灵活的读取操作,例如:将header设置为1,则表头为所读取表格的第二行,第二行以下部分为读取的数据--->运行组件对指定的Excel工作簿进行读取操作

输出结果
运行组件后,设计器即会读取Excel文件,并返回dataframe数据集

Custom_df001