关于反字体反爬的一种新思路–利用OCR识别
因为前几天一位同学和我讨论如何爬取起点中文网的上小说的数据。其中遇到了一些内容无法抓取,前端显示出来的是正常的,但复制下来却是乱码。我看了网页源码后发现,是用了特殊的字体。所以直接抓取是拿不到数据的。恰好我之前还没遇到过类似的问题,所以就研究学习了一下。自己偶然想出了一个独特的思路从而曲线救国。
因为前几天一位同学和我讨论如何爬取起点中文网的上小说的数据。其中遇到了一些内容无法抓取,前端显示出来的是正常的,但复制下来却是乱码。我看了网页源码后发现,是用了特殊的字体。所以直接抓取是拿不到数据的。恰好我之前还没遇到过类似的问题,所以就研究学习了一下。自己偶然想出了一个独特的思路从而曲线救国。
因为前几天在参加数学建模的比赛,恰好指导老师问我写过哪些爬虫,好像提到了他们之前让学生抓取链家上的房价信息。听老师描述起来好像还有些困难的样子,还有多种反爬措施。于是我就试着爬取了一下链家上二手房的信息,所以就把我在分析抓取数据的过程分享给大家。
FFmpeg是我前段时间分析某视频网站加密的时候了解到的,功能非常强大。是视频处理最常用的开源软件,用途广泛,大量用于视频网站和商业软件(比如 Youtube 和 iTunes),也是许多音频和视频格式的标准编码/解码实现。在FFMpeg2.X 由于在解析HTTP Live Streaming流媒体m3u8文件处理不当,可导致SSRF漏洞与任意文件读取漏洞。当网站允许用户上传多媒体文件,并使用FFMpeg进行处理时会触发该漏洞。 阅读更多
Nexus Repository Manager 3 是一款软件仓库,可以用来存储和分发Maven、NuGET等软件源仓库。其3.14.0及之前版本中,存在一处基于OrientDB自定义函数的任意JEXL表达式执行功能,而这处功能存在未授权访问漏洞,将可以导致任意命令执行漏洞。
阅读更多因为昨天恰好看到了一些以前关于redis漏洞的文章,想起蒋大佬前段时间也在学习redis。我记得他是在服务器上装了redis的。所以就顺手测了一下他的redis,果不其然没设密码。所以就直接把我的ssh公钥写了进去,顺利的把他的服务器给搞到手了,美滋滋。所以就将这个Redis未授权访问漏洞复现了一遍。
这个漏洞是上个月出的一个phpmyadmin的漏洞。今天花了一下午的时间来复现了这个漏洞,写一下自己复现该漏洞的整个过程及自己的一些心得体会。
本来写这个工具的想法是绕过我们专业的专周数据结构的作业查重,因为我本身不会C++,但是直接copy别人的代码会被查重而且也没什么技术含量,所以我就用python写了一个混淆代码的脚本,成功给绕过去了。写完之后发现这个混淆工具其实还蛮不错的,所以就想把他分享给大家。