爬虫技术概览

基于对数据的兴趣以及对技术的渴望，在大数据这个年代，没有数据怎么空谈大数据。数据的获取方式多种多样，可以下载，可以从政府的网站上免费获取，有钱的话可以从别人那里买到，或者自己动手做爬虫爬数据。

从2011年开始，那时候还在华为的时候，每年过年要回广州家，每次买机票都会观察一段时间然后下手。自己想搞清楚一个问题：提前多少天，在什么时候我能最高概率的买到最便宜的机票？然后就开始研究起来了淘宝、去哪儿、酷讯的页面如何爬，积累了很多经验，同时这些经验又会给我们的网站设计提供反向的思考。当然我这里所要讲到的我的爬虫，并不是广义上的百度、谷歌的爬虫，而是对特性数据的深度爬虫。这种爬虫所用到的技术面更窄，针对性更强，面临的挑战也不一样。

作为爬虫和网站，两个对立的群体，会面临很多的问题。网站作为服务的提供者，一来想保护自己的业务不会受到非法的攻击，会采取各种措施来防止非法的数据获取，另一方面对于普通的用户又不想将用户体验搞得很糟糕。爬虫的目的就是为了数据，会想尽一切的办法来获取，尽量的获取更多的数据。攻防之战总会升级，每每解决一个特别棘手的问题后，都会为自己的技术而感到沾沾自喜，也会期待网站的再次升级。

下面是去年的时候整理的一个图，我会在后续的博客里面进行深度的分析。

文章目录