"import ubpa.ichrome_firefox as ichrome_firefox ''' 需求：获取页面全部table文本内容，根据指定列内容，提取本行其他列内容。通过 ichrome_firefox 获取页面文本内容。然后 ...."

经验动态下载提问活动应用互动学院最新优选官网

登录

wangwei

机器学习, 数据采集, 数据分析, web网站，IS-RPA，APP
网页处理 RPA • 0 回帖 • 1.1K 浏览 • 2019-08-27 17:16:57

设计器 ubpa 下 Google 页面获取页面文本内容

import ubpa.ichrome_firefox as ichrome_firefox
"""
需求：获取页面全部table文本内容，根据指定列内容，提取本行其他列内容。

通过 ichrome_firefox 获取页面文本内容。
然后，取出对应内容，分放到列表，然后pandas合成数据。提取内容
"""
name = []
for ii in range(1,100):
    """
    此处，要提取的内容就在一个页面，大概三四十条内容，没有下一页。
    """
    try:
        con = ichrome_firefox.get_element_val_chrome(attrMap={"css-selector":"#tr_{}".format(ii)},title=r'苏州分行京东采购平台',waitfor=1)

        con = con.split('result')[0] # 因为 con 里面有一堆内容，result之后为文本内容
        # con2 = rpa_str.iprint(param=con)
        
        print('@'*50)
        result = con.split('\n')  # 结果是 换行的
        print(len(result), result)
        name.append(result[2].strip())  # result 第二个元素是 机构名字，strip去除html格式

    except Exception as e:
        print(ii,e)
        break

0 回帖

快速了解RPA

RPA RPA技术 RPA软件 RPA培训 RPA应用 RPA机器人

沪ICP备12049238号版权所有©上海艺赛旗软件股份有限公司 2011-2018
© 2018 B3log 开源旗下云南链滴科技有限公司版权所有 • Sym

设计器 ubpa 下 Google 页面获取页面文本内容

0 0 0 0