tkitreadability package

Submodules

tkitreadability.tkitreadability module

class tkitreadability.tkitreadability.tkitReadability[源代码]

基类:object

一个正文提取类,优化提取流程 >>> tkitReadability()

clear(string)[源代码]

清理多余空格

清理多余的换行空格等

>>> clear('这里似乎内        容不给')
filter_tags(htmlstr)[源代码]

清理掉html代码

>>> filter_tags(htmlstr)
html2text(html)[源代码]

从html中提取正文

>>> html2text(html)
remove_HTML_tag(tag, string)[源代码]

删除特定的标签

# 删除掉图片 >>> tag =’img’ >>> string =’’’

萌照镇楼。

<img data-rawwidth=”1393” data-rawheight=”1104” src=”https://pic3.zhimg.com/50/63f68657ef2e5c22fef8b982a141cfd0_hd.jpg” class=”origin_image zh-lightbox-thumb” width=”1393” data- original=”https://pic3.zhimg.com/63f68657ef2e5c22fef8b982a141cfd0_r.jpg”/>

母犬发情期的主要特征:

‘’’

>>> remove_HTML_tag(tag, string)
remove_word_wrap(html)[源代码]

删除多余的换行

Module contents