wangwei
机器学习, 数据采集, 数据分析, web网站,IS-RPA,APP
其他经验 python基础 正则表达式 • 2 回帖 • 626 浏览 • 2019-08-22 19:59:16
机器学习, 数据采集, 数据分析, web网站,IS-RPA,APP
其他经验 python基础 正则表达式 • 2 回帖 • 626 浏览 • 2019-08-22 19:59:16
Python 去除 HTML 网页标签
Python 去除 HTML 网页标签
代码
#!/usr/bin/env Python3
# -*- coding: utf-8 -*-
# @Software: PyCharm
# @virtualenv:workon
# @contact: contact information
# @Desc:Python去除HTML网页标签
__author__ = '未昔/AngelFate'
__date__ = '2019/8/22 19:18'
import re
import time
def get(con):
start = time.time()
pattern = re.compile(r'<[^>]+>', re.S)
result = pattern.sub('', con)
print('------原始数据:----------')
print(con,'\n')
print('------去除HTML标签后的数据--------')
end = time.time()
return '结果数据: ',result
if __name__ == '__main__':
html = ' pjax-title="经验 - 领域 - 艺赛旗社区" href="[http://support.i-search.com.cn/domain/经验分享](http://support.i-search.com.cn/domain/%E7%BB%8F%E9%AA%8C%E5%88%86%E4%BA%AB)"> 经验'
print( '结果数据: ',get(html)[1])
结果
D:\import\python3.7\python.exe E:/python/Study/小经验+艺赛旗论坛/预发布/Python去除HTML网页标签.py
------原始数据:----------
pjax-title="经验 - 领域 - 艺赛旗社区" href="[http://support.i-search.com.cn/domain/经验分享](http://support.i-search.com.cn/domain/%E7%BB%8F%E9%AA%8C%E5%88%86%E4%BA%AB)"> 经验
------去除HTML标签后的数据--------
TIME: 0.0
结果数据: 经验
Process finished with exit code 0
我也是才发现的,忘记改了。
这下原始数据对了,上次看是错的,后来一个岔忘记回帖了哈哈哈