Cutts也指出,谷歌新闻的蜘蛛在爬行中做得更聪明更智能化了,从而更加高效。那么什么是If-Modified-Since呢?
If-Modified-Since是一个标准的HTTP的请求头标签。在发送HTTP请求时,If-Modified-Since把浏览器端缓存页面的最后修改时间一起发到服务器去,服务器会把这个时间与服务器上存储的实际文件的最后修改时间进行比较。
如果时间一致,那么返回HTTP状态码304(不返回文件内容);如果时间不一致,就返回HTTP状态码200和新的文件内容。这样就可以大大缩短蜘蛛的抓取时间,提高蜘蛛抓取的效率,如果时间一致就不需要再次抓取,如果不一致才会继续抓取新的文件。这对于蜘蛛在站点的工作效率是非常大的提升,可以让蜘蛛抓取更多需要抓取的内容,所以站长不用担心,蜘蛛抓取数据减少少的只是不需要抓取的。