爬虫遇到的问题

此篇主要用来记录一些在爬虫时候遇到的问题。

·markdown类型的文本本身并不是html格式的,比如下图,爬下来解析之后是获取不到里面的那些标签的,必须自己做字符串处理。

F12查看元素
爬下来整个页面并打印

·当时爬寄托家园论坛帖子的时候,遇到个很难定位的元素。每篇帖子的内容都在下图所示的元素内,但是每个元素id均不一样,而我又想通过for循环来取。

由于只用过pyquery解析库, 找了下好像没找到自带的好的方法,最后还是用了正则表达式来写 :

此处补充一下,filter方法是在符合前面那个标签的的元素里筛选,而不包括其所有子代。此处即可理解为返回id为’post_\d+’格式的div标签内容。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注