"拾取表格组件,在抓取页面表格时非常方便,但是遇到了一个问题,当拾取的列内容为长数字时,例如一个订单号,是要把这列当作字符格式处理的,但是拾取表格输出的结果是科学计数法的格式,也就是把这里当成数值格式了。 建议:拾取表格组件在拾取表格时,全部 ...."
拾取表格组件,在抓取页面表格时非常方便,但是遇到了一个问题,当拾取的列内容为长数字时,例如一个订单号,是要把这列当作字符格式处理的,但是拾取表格输出的结果是科学计数法的格式,也就是把这里当成数值格式了。
建议:拾取表格组件在拾取表格时,全部按照字符处理数据,类型的转换交给用户,在后期完整。
好的。身份证号,订单号,快递单号,手机号 位数超过 8 位数字的基本都是这些东西。建议可以加个选项,是否自动识别字段类型,如果选否,就全部都是字符格式的。
这个是自动识别的,全数字的列,你让程序把它作为数字还是 str?大部分情况肯定是数字,你这个是少数情况,就自己转一下吧,当然 pandas 支持设定这个列的类型,我们后续可以加上,现阶段自己转一下吧
如果最开始拾取的时候,输出就保持原样不是更好吗?这个组件应该也是利用 dataframe 的 read html 组件的能力,这个功能里的确没有 dtype 的参数,是不是可以在组件的后台代码里加一个 .astype(str) 来实现?
返回的是 pandas Dataframe,可以进行转换,论坛很多 pandas 用法的帖子,用 aply 之类的都可以
我们记录下,看看有没有好的方式优化
好的。
身份证号,订单号,快递单号,手机号 位数超过 8 位数字的基本都是这些东西。建议可以加个选项,是否自动识别字段类型,如果选否,就全部都是字符格式的。
这个是自动识别的,全数字的列,你让程序把它作为数字还是 str?大部分情况肯定是数字,你这个是少数情况,就自己转一下吧,当然 pandas 支持设定这个列的类型,我们后续可以加上,现阶段自己转一下吧
如果最开始拾取的时候,输出就保持原样不是更好吗?
这个组件应该也是利用 dataframe 的 read html 组件的能力,这个功能里的确没有 dtype 的参数,是不是可以在组件的后台代码里加一个 .astype(str) 来实现?
返回的是 pandas Dataframe,可以进行转换,论坛很多 pandas 用法的帖子,用 aply 之类的都可以
我们记录下,看看有没有好的方式优化