填充NaN
填充NaN
描述:通过使用指定方法填充DataFrame数据中的NA/NaN值

属性说明
通用属性
- 前置延时 - 组件功能执行之前等待的时间,单位为“毫秒”
- 后置延时 - 组件功能执行后等待的时间,单位为“毫秒”
- 备注 - 组件备注说明,以便于理解和快速定位
目标属性
- df - 输入一个DataFrame数据,支持输入变量
- Value - 设置用于填充空值的值,注意不能传入list。默认为'',即默认空字符串填充所有空值
- Method - 定义了填充空值的方法, 包括{‘backfill’, ‘bfill’, ‘pad’, ‘ffill’, None},默认为None。其中’pad’和 ‘ffill’ 表示用前面 行/列(行或列取决于“axis”参数,默认情况下为行) 的值,填充当前的空值, ‘backfill’ 和 ‘bfill’表示用后面 行/列 的值,填充当前的空值
注意
“value”参数 和 “method”两个参数必须有且只能有一个参数进行了设置,而组件上显示的value默认值''实际已经是进行了修改,所以在设置“method”参数时,先将“value”参数设置为None
- Axis - 设置填充的方向,0 或 'index',从第一列开始逐列填充;1 或 'columns',从第一行开始逐行填充
- Limit - 设置填充个数的最大限制,默认为None,输入大于等于1的整型数字。如果method被指定,对于连续的空值,这段连续区域,最多填充前 limit 个空值(如果存在多段连续区域,每段最多填充前 limit 个空值)。如果method未被指定, 在该axis下,最多填充前 limit 个空值(不论空值连续区间是否间断)
- Downcast - 可输入为字典或字符串,默认为None。在填充缺失值后,将数据类型转换为更小的数据类型,以节省内存空间。
- Inplace - 可选True和False,True表示直接在原来的DataFrame上删除重复项,传入的df变为填充NaN之后的DataFrame;而默认值False表示生成一个副本,传入的df不被改变
返回值
- 输出到变量 - 返回填充空值后的DataFrame数据,赋值给一个变量
使用示例
添加【读取Excel】组件和一个局部变量,将该组件的返回值连接到变量lv_1中---->添加【输出】组件,将【读取Excel】组件的返回值连接到输出上---->添加【填充NaN】组件---->将变量lv_1连接到【填充NaN】组件的“df”上---->添加【输出】组件,将【填充NaN】组件的返回值连接到输出上---->运行流程

情况1:【填充NaN】组件目标属性''value''设置为'默认值'---->运行流程

输出结果:流程运行后---->系统自动读取excel数据,用字符串'默认值'填充原DataFrame数据的所有空值,输出填充空值后的DataFrame数据到控制台,结果如下图

情况2:【填充NaN】组件目标属性''value''设置为字典{'品质':'备用1','备注':'备用2'}---->运行流程

输出结果:流程运行后---->系统自动读取excel数据,''备用1''填充''品质''列内的空值,''备用2''填充''备注''列内的空值,未指定的列名下的空值不变,输出填充空值后的DataFrame数据到控制台,结果如下图

情况3:【填充NaN】组件目标属性''method''设置为'pad'---->''axis''参数设置为0---->运行流程

输出结果:流程运行后---->系统自动读取excel数据,从第一列开始逐列填充,用每个空值之前表格的值,填充当前的空值,输出填充空值后的DataFrame数据,到控制台,结果如下图

情况4:【填充NaN】组件目标属性''method''设置为'bfill'---->''axis''参数设置为1---->运行流程

输出结果:流程运行后---->系统自动读取excel数据,从第一行开始逐行填充,用每个空值之后表格的值,填充当前的空值,输出填充空值后的DataFrame数据到控制台,结果如下图

情况4:【填充NaN】组件目标属性''limit''设置为2---->''value''参数设置为'default'---->运行流程

输出结果:流程运行后---->系统自动读取excel数据,连续的空值中,最多填充前2个空值,输出填充空值后的DataFrame数据到控制台,结果如下图

情况5:【填充NaN】组件目标属性''downcast''设置为{'产品':'float','品质':'integer'}---->运行流程

输出结果:流程运行后---->系统自动读取excel数据,''产品''列将被转换为浮点类型,''品质''列将被转换为整数类型,可以优化 DataFrame 的内存使用,输出转换类型后的DataFrame数据到控制台,结果如下图

情况6:【填充NaN】组件目标属性''inplace''设置为True---->''value''设置为'default'

分别打印【填充NaN】组件处理后的df数据,和【读取Excel】组件获取的df数据---->运行流程

输出结果:系统自动读取excel数据,直接在原来的DataFrame数据上填充空值为''default'',可以看到【读取Excel】组件获取的df数据被改变了,输出结果到控制台
