基于Keras构建卷积神经网络识别正方系统验证码
通过机器学习算法来识别正方系统的验证码是我大二上学期就有的一个想法。不过拖了很久,恰好利用这学期我们学校举办的奔腾杯比赛来做这个事情。因为刚开始接触机器学习,对一些主流的深度学习框架还了解的不深,所以我选择了最简单的Keras,节省了大量的时间成本。这期间参考了大量的文章和别人的模型,才写成本文,由于我目前能力尚且不足,文章难免会有很多疏漏和不足之处,还望各位大佬见谅和指教。
通过机器学习算法来识别正方系统的验证码是我大二上学期就有的一个想法。不过拖了很久,恰好利用这学期我们学校举办的奔腾杯比赛来做这个事情。因为刚开始接触机器学习,对一些主流的深度学习框架还了解的不深,所以我选择了最简单的Keras,节省了大量的时间成本。这期间参考了大量的文章和别人的模型,才写成本文,由于我目前能力尚且不足,文章难免会有很多疏漏和不足之处,还望各位大佬见谅和指教。
我在之前的一篇文章里写过链家上全国所有城市的二手房房价信息抓取的爬虫思路以及代码。之后我便一直在学习数据可视化的内容。因为房价一直都是大家比较关注的话题,二手房价格也不低,新房更是让人望而却步。所以将爬取到的数据拿出来进行可视化分析。
前几天在空间看到同学发说说关于爬取西刺代理遇到了一些问题,所以今天就自己尝试了下。发现爬取页面上的ip本身并不困难,恰好突发奇想既然抓取了这么多免费的代理ip,不如写入数据库来供自己的爬虫使用。所以我就想到了这里用Redis再合适不过了,建立一个自己的ip代理池,美滋滋!
pornhub这个网站可能大多数人都知道,至于网站什么内容什么的我就不做什么介绍了。如果实在不知道就自行Google吧。当然这是一篇纯粹的技术文章,因为pornhub上的视频是无法直接下载的。通过页面分析pornhub得到视频的源地址,就可以不用挂vpn观看视频或直接下载了。
因为前几天一位同学和我讨论如何爬取起点中文网的上小说的数据。其中遇到了一些内容无法抓取,前端显示出来的是正常的,但复制下来却是乱码。我看了网页源码后发现,是用了特殊的字体。所以直接抓取是拿不到数据的。恰好我之前还没遇到过类似的问题,所以就研究学习了一下。自己偶然想出了一个独特的思路从而曲线救国。
因为前几天在参加数学建模的比赛,恰好指导老师问我写过哪些爬虫,好像提到了他们之前让学生抓取链家上的房价信息。听老师描述起来好像还有些困难的样子,还有多种反爬措施。于是我就试着爬取了一下链家上二手房的信息,所以就把我在分析抓取数据的过程分享给大家。
这个爬虫本身是前几天帮朋友写的,是爬取虎牙上的各类游戏top 10 的主播。不过写完后,又把代码重写了一份,顺便把斗鱼上各类游戏主播的数据也抓取了一下。结果发现斗鱼的爬虫代码更具代表性,而且效率非常之高。所以便有了这篇文章。
前几天一位朋友在qq上问我,有没有之前我写的爬取站长之家上简历模板的源码,结果找了一下发现之前写的比较碎片化,可用性也不高。所以就把思路重新整理了一下,在重新审计网页源码时发现了更巧妙的思路。将整个爬虫代码优化了很多。做了异常处理后代码也只有几十行,主要是构思十分巧妙。让这次爬虫的代码量少了好几倍,短小精悍。