Archive2月 2019

Apache SSI 远程命令执行漏洞复现

作者 Zgao 在漏洞复现

使用SSI(Server Side Include)的html文件扩展名(.shtml),通常称为”服务器端嵌入“或者叫”服务器端包含“。

shtml不是html而是一种服务器API,shtml是服务器动态产生的html。两者都是超文本格式，但shtml是一种用于SSI（Servcie Side Include ,服务器端包含指令）技术的文件，一般浏览器访问时会优先扫描依次shtml文件看有没有SSI指令存在，就就按服务器设定的规则去解释SSI指令，然后跟html一起被渲染。当shtml或shtm中不包含服务端可执行脚本时作用和html或htm一样。阅读更多

关于反字体反爬的一种新思路–利用OCR识别

作者 Zgao 在 python

因为前几天一位同学和我讨论如何爬取起点中文网的上小说的数据。其中遇到了一些内容无法抓取，前端显示出来的是正常的，但复制下来却是乱码。我看了网页源码后发现，是用了特殊的字体。所以直接抓取是拿不到数据的。恰好我之前还没遇到过类似的问题，所以就研究学习了一下。自己偶然想出了一个独特的思路从而曲线救国。

2月 1, 2019

链家-全国二手房源数据爬取思路分析

作者 Zgao 在 python

因为前几天在参加数学建模的比赛，恰好指导老师问我写过哪些爬虫，好像提到了他们之前让学生抓取链家上的房价信息。听老师描述起来好像还有些困难的样子，还有多种反爬措施。于是我就试着爬取了一下链家上二手房的信息，所以就把我在分析抓取数据的过程分享给大家。