去重
去重
描述:根据条件对DataFrame数据去重处理

属性说明
通用属性
- 前置延时 - 组件功能执行之前等待的时间,单位为“毫秒”
- 后置延时 - 组件功能执行后等待的时间,单位为“毫秒”
- 备注 - 组件备注说明,以便于理解和快速定位
目标属性
- df - 输入一个DataFrame数据,支持输入变量
- Subset - 设置去重的依据列,支持输入变量
- Keep - 下拉框可选择first、last、False,用以设置保留重复数据的方式
- Inplace - 下拉框可选择True和False,True表示直接在原来的DataFrame上删除重复项,而默认值False表示生成一个副本
返回值
- 输出到变量 - 返回去重后的DataFrame数据,赋值给一个变量
使用示例
添加【读取Excel】组件---->添加【去重】组件---->将【读取Excel】组件的返回赋予到【去重】组件的df---->添加【输出】组件,将【去重】组件的返回值连接到输出上---->运行流程

情况1:【去重】组件目标属性''subset''默认为''---->运行流程

输出结果:流程运行后---->系统自动读取excel文件,所有列都重复的行会被去重,输出去重后的DataFrame数据到控制台,结果如下图

情况2:【去重】组件目标属性''subset''输入'备注'---->运行流程

输出结果:流程运行后---->系统自动读取excel文件,并根据''备注''列去除了所有重复值对应的行,输出去重后的DataFrame数据到控制台,结果如下图

情况3:【去重】组件目标属性''subset''输入['产品','品质']---->运行流程

输出结果:流程运行后---->系统自动读取excel文件,根据''产品''、''品质''列判断去重,去重了两列都重复的行,输出去重后DataFrame数据到控制台,结果如下图

情况4:【去重】组件目标属性''subset''输入['产品','品质']---->''keep''默认为''first''---->运行流程

输出结果:流程运行后---->系统自动读取excel文件,根据''产品''、''品质''列判断去重,保留第一次出现的重复行,输出去重后DataFrame数据到控制台,结果如下图

情况5:【去重】组件目标属性''subset''输入['产品','品质']---->''keep''设置为''last''---->运行流程

输出结果:流程运行后---->系统自动读取excel文件,根据''产品''、''品质''列判断去重,保留最后出现的重复行,输出去重后DataFrame数据到控制台,结果如下图

情况6:【去重】组件目标属性''subset''输入['产品','品质']---->''keep''设置为'False'---->运行流程

输出结果:流程运行后---->系统自动读取excel文件,根据''产品''、''品质''列判断去重,去除所有重复行,输出去重后DataFrame数据到控制台,结果如下图

情况7:【去重】组件目标属性''subset''输入'品质'---->''inplace''设置为'True'---->添加流程变量lv_1

分别打印【去重】组件处理后的df数据,和【读取Excel】组件获取的df数据---->运行流程

输出结果:流程运行后---->系统自动读取excel文件,根据“品质”列判断去重,直接在原来的DataFrame数据上删除重复项,输出去重后结果到控制台

情况8:【去重】组件目标属性''subset''输入'品质'---->''inplace''参数设置为'False',即将【读取Excel】组件获取的DataFrame数据生成一个新副本,在新副本上进行去重操作,不影响原DataFrame数据---->添加流程变量lv_1

分别打印【去重】组件处理后的df数据,和【读取Excel】组件获取的df数据

输出结果:流程运行后---->系统自动读取excel文件,根据“品质”列判断去重,在新副本上进行去重,【读取Excel】组件获取的df数据,没有被改变,输出结果到控制台
