分类目录python

用几十行python代码爬取站长之家数万份素材资源

前几天一位朋友在qq上问我,有没有之前我写的爬取站长之家上简历模板的源码,结果找了一下发现之前写的比较碎片化,可用性也不高。所以就把思路重新整理了一下,在重新审计网页源码时发现了更巧妙的思路。将整个爬虫代码优化了很多。做了异常处理后代码也只有几十行,主要是构思十分巧妙。让这次爬虫的代码量少了好几倍,短小精悍。

阅读更多

爬虫小trick分享:插件一键禁用网站js

在学习爬虫的过程中经常会使用xpath来抓取页面元素,而我们是通过浏览器的开发者工具来获得xpath路径的。但是有的时候会遇到一个问题,在我们都可以获取到数据的情况下,通过浏览器获取的xpath路径是经过js渲染之后得到的。但通过requests库抓取的页面是未渲染的,前后的dom节点会有所变化,xpath也不同,这样就很麻烦。无意间发现了一个插件可以任意开关网站的js,非常方便。

阅读更多