1.分析一下点评网的点评反爬
分析一下点评网的反爬
点评网的反爬策略在爬取点评网页时造成了一定的难度。在页面上,源源码可以看到餐厅的码点评论条数为条,人均消费为元,评网但页面源码中只显示了一个数字1,点评处方 源码其余数字以类似随机编码的源源码源码帮css类形式呈现。
点评网通过在数字后设置特定css类,码点对数字进行了反爬保护。评网当分析css类时,点评发现其原理在于通过不同的源源码偏移位置显示背景上的数字。页面上显示的码点数字就像一个窗口,固定不动,评网而背景则移动至不同位置,点评各类源码以此显示相应数字。源源码
进一步探究,码点发现背景实为SVG格式,其中的hmtl源码数字在源码中可直接查看。理解其原理后,通过代码实现了解析过程。首先从网页中找到css文件url,接着在css中获取背景路径,scrm源码进而获取SVG中的每个数字。
解析css类与数字之间的对应关系,涉及建立字典以匹配特定css类与背景中的偏移量。以评论条数为例,实现获取点评网页上每家餐厅的评论条数,定义函数用于解析评论数量,并调用函数爬取页面中的数据。
执行代码后,成功解析出餐厅的评论条数,与网页显示数据相符。这一过程展示了点评网反爬策略的应对方法,也揭示了网页源码中隐藏的数字展示机制。