基于对数据的兴趣以及对技术的渴望,在大数据这个年代,没有数据怎么空谈大数据。数据的获取方式多种多样,可以下载,可以从政府的网站上免费获取,有钱的话可以从别人那里买到,或者自己动手做爬虫爬数据。

从2011年开始,那时候还在华为的时候,每年过年要回广州家,每次买机票都会观察一段时间然后下手。自己想搞清楚一个问题:提前多少天,在什么时候我能最高概率的买到最便宜的机票?然后就开始研究起来了淘宝、去哪儿、酷讯的页面如何爬,积累了很多经验,同时这些经验又会给我们的网站设计提供反向的思考。当然我这里所要讲到的我的爬虫,并不是广义上的百度、谷歌的爬虫,而是对特性数据的深度爬虫。这种爬虫所用到的技术面更窄,针对性更强,面临的挑战也不一样。

作为爬虫和网站,两个对立的群体,会面临很多的问题。网站作为服务的提供者,一来想保护自己的业务不会受到非法的攻击,会采取各种措施来防止非法的数据获取,另一方面对于普通的用户又不想将用户体验搞得很糟糕。爬虫的目的就是为了数据,会想尽一切的办法来获取,尽量的获取更多的数据。攻防之战总会升级,每每解决一个特别棘手的问题后,都会为自己的技术而感到沾沾自喜,也会期待网站的再次升级。

下面是去年的时候整理的一个图,我会在后续的博客里面进行深度的分析。