分类目录python

爬虫小trick分享:插件一键禁用网站js

在学习爬虫的过程中经常会使用xpath来抓取页面元素,而我们是通过浏览器的开发者工具来获得xpath路径的。但是有的时候会遇到一个问题,在我们都可以获取到数据的情况下,通过浏览器获取的xpath路径是经过js渲染之后得到的。但通过requests库抓取的页面是未渲染的,前后的dom节点会有所变化,xpath也不同,这样就很麻烦。无意间发现了一个插件可以任意开关网站的js,非常方便。

阅读更多

分享一个自己写的C++代码混淆工具(附源码)

本来写这个工具的想法是绕过我们专业的专周数据结构的作业查重,因为我本身不会C++,但是直接copy别人的代码会被查重而且也没什么技术含量,所以我就用python写了一个混淆代码的脚本,成功给绕过去了。写完之后发现这个混淆工具其实还蛮不错的,所以就想把他分享给大家。

阅读更多

用几十行python代码爬取站长之家数万份素材资源

前几天一位朋友在qq上问我,有没有之前我写的爬取站长之家上简历模板的源码,结果找了一下发现之前写的比较碎片化,可用性也不高。所以就把思路重新整理了一下,在重新审计网页源码时发现了更巧妙的思路。将整个爬虫代码优化了很多。做了异常处理后代码也只有几十行,主要是构思十分巧妙。让这次爬虫的代码量少了好几倍,短小精悍。

阅读更多