Python 去除 HTML 网页标签

Python 去除 HTML 网页标签

代码

#!/usr/bin/env Python3
# -*- coding: utf-8 -*-
# @Software: PyCharm
# @virtualenv:workon
# @contact: contact information
# @Desc:Python去除HTML网页标签
__author__ = '未昔/AngelFate'
__date__ = '2019/8/22 19:18'
import re
import time

def get(con):
 start = time.time()
 pattern = re.compile(r'<[^>]+>', re.S)
 result = pattern.sub('', con)
 print('------原始数据:----------')
 print(con,'\n')
 print('------去除HTML标签后的数据--------')
 end = time.time()

 return '结果数据: ',result

if __name__ == '__main__':
 html = ' pjax-title="经验 - 领域 - 艺赛旗社区" href="[http://support.i-search.com.cn/domain/经验分享](http://support.i-search.com.cn/domain/%E7%BB%8F%E9%AA%8C%E5%88%86%E4%BA%AB)"> 经验'
 print( '结果数据: ',get(html)[1])

结果

D:\import\python3.7\python.exe E:/python/Study/小经验+艺赛旗论坛/预发布/Python去除HTML网页标签.py
------原始数据:----------
pjax-title="经验 - 领域 - 艺赛旗社区" href="[http://support.i-search.com.cn/domain/经验分享](http://support.i-search.com.cn/domain/%E7%BB%8F%E9%AA%8C%E5%88%86%E4%BA%AB)"> 经验 

------去除HTML标签后的数据--------
TIME: 0.0
结果数据: 经验

Process finished with exit code 0