爬虫遇到的问题

此篇主要用来记录一些在爬虫时候遇到的问题。

·markdown类型的文本本身并不是html格式的，比如下图，爬下来解析之后是获取不到里面的那些标签的，必须自己做字符串处理。

F12查看元素

爬下来整个页面并打印

·当时爬寄托家园论坛帖子的时候，遇到个很难定位的元素。每篇帖子的内容都在下图所示的元素内，但是每个元素id均不一样，而我又想通过for循环来取。

由于只用过pyquery解析库，找了下好像没找到自带的好的方法，最后还是用了正则表达式来写：

此处补充一下，filter方法是在符合前面那个标签的的元素里筛选，而不包括其所有子代。此处即可理解为返回id为’post_\d+’格式的div标签内容。

发表回复取消回复