此篇主要用来记录一些在爬虫时候遇到的问题。
·markdown类型的文本本身并不是html格式的,比如下图,爬下来解析之后是获取不到里面的那些标签的,必须自己做字符串处理。


·当时爬寄托家园论坛帖子的时候,遇到个很难定位的元素。每篇帖子的内容都在下图所示的元素内,但是每个元素id均不一样,而我又想通过for循环来取。

由于只用过pyquery解析库, 找了下好像没找到自带的好的方法,最后还是用了正则表达式来写 :

No one is coming
此篇主要用来记录一些在爬虫时候遇到的问题。
·markdown类型的文本本身并不是html格式的,比如下图,爬下来解析之后是获取不到里面的那些标签的,必须自己做字符串处理。
·当时爬寄托家园论坛帖子的时候,遇到个很难定位的元素。每篇帖子的内容都在下图所示的元素内,但是每个元素id均不一样,而我又想通过for循环来取。
由于只用过pyquery解析库, 找了下好像没找到自带的好的方法,最后还是用了正则表达式来写 :