Python俱乐部
Python
小课题
京东优惠券
HTMLParser是Python自带的模块,能够很容易实现HTML文件的处理
使用HTMLParser解析HTML文件
看了一下介绍,觉得功能很强劲,还没又时间去研究。
BeautifulSoup简单文档有空我会去完善的。
用过jQuery的都知道,JavaScript处理html文本的方便好用了。现在有了pyQuery,python中也可以像JavaScript一样来处理jQuery了。
现在标题 <title> 部分大多含有网站名称, 和子栏目名称。
如果希望得到干净的文章标题可以使用如下方法:
得到了干净的标题和正文,余下的事情就好做咯