开发经验

1. 内嵌网页无法拾取操作的问题

有些网页的拾取会在属性表里显示 url,且该 url 与当前页面的 url 不一致时,说明该元素存在另外一个网页,如果该网页后接着一系列随机的参数,此时可以利用网页的白名单缓存机制,先打开该网页,让网页保存该 url 在缓存里,然后通过通配符直接打开内嵌网页,则可正常拾取,如同可以直接打开如图所示的 url 已经将参数替换成了 *,此时可以正常进行拾取操作。

2. 谷歌网页拾取的每次打开属性都会改变的问题

可找出固定不变的值,如谷歌一般只需保存 xpath 即可。

3.pandas 表格处理自动过滤重复字段

data=df.drop_duplicates(subset=[‘过滤字段 1’,’过滤字段 2’],keep=’last’)

Keep 如果等于 first 则表示保留第一条重复数据,last 表示保存最后一条

4. 解决插入行或列时表格格式受影响的问题 (如会把后面的数据往后偏移一行或一列)

sht = xw.Book(filename).sheets(‘工作表一’) # filename 为 excel 表格的绝对路径,后边接的是需要获取的工作表对象

sht.range(‘BJ3’).options(transpose=True).value = a #设置 range 为第几行第几列,transpose=True 表示插入列,value 为一个列表,这样便可直接在表格 BJ3 单元格开始往下逐个插入列表的数据

5. 抓取到的 Dataframe 去空值,或是指定列去空值

df.dropna(axis=0, how=‘any’, inplace=True)
df.dropna(subset=[‘列名’],inplace=True)
参数说明:
axis:0- 行操作(默认),1- 列操作
how:any- 只要有空值就删除(默认),all- 全部为空值才删除
inplace:False- 返回新的数据集(默认),True- 在愿数据集上操作
subset:列名称,默认所有列