Archive二月 2019

关于反字体反爬的一种新思路--利用OCR识别

因为前几天一位同学和我讨论如何爬取起点中文网的上小说的数据。其中遇到了一些内容无法抓取,前端显示出来的是正常的,但复制下来却是乱码。我看了网页源码后发现,是用了特殊的字体。所以直接抓取是拿不到数据的。恰好我之前还没遇到过类似的问题,所以就研究学习了一下。自己偶然想出了一个独特的思路从而曲线救国。

阅读更多

我在云上批量抓鸡的故事(下)–写EXP干就完事了!

这篇文章一年之前就写好了,但是一直在我草稿箱中不敢发出来,当时我数据库中全是肉鸡,慌得一批,这篇文章发出来又怕被不怀好意的人给利用,所以放了这么久。现在重新看了全文,文中的有些部分有些改动。这篇是上一篇文章的技术分析过程。之前一直都是通过手动渗透,在分析完原理后,我就将整个流程写成了自动化脚本。

阅读更多

我在云上批量抓鸡的故事(上)--从webshell到远程桌面

这是我亲身经历的一些事情,本来很早之前就想写出来,却因为各种原因一直没有写下来。之前很多朋友问过我抓鸡的事情,我相信也是我很多朋友最想知道的。趁着新年第一天在家闲着,将这些有趣的故事娓娓道来。不过看到标题先不要误会,我并不搞黑产,只是在此过程中也看到了不少黑产的踪影。这篇文章只讲故事,不谈技术。

阅读更多

链家-全国二手房源数据爬取思路分析

因为前几天在参加数学建模的比赛,恰好指导老师问我写过哪些爬虫,好像提到了他们之前让学生抓取链家上的房价信息。听老师描述起来好像还有些困难的样子,还有多种反爬措施。于是我就试着爬取了一下链家上二手房的信息,所以就把我在分析抓取数据的过程分享给大家。

阅读更多