八爪鱼·云采集网络爬虫软件
www.bazhuayu.com
淘宝卖家信息采集步骤32
步骤5:采集与调试
1)选择“启动本地采集”
八爪鱼·云采集网络爬虫软件
www.bazhuayu.com
淘宝卖家信息采集步骤33
2)仔细观察本地采集时的运行情况。
八爪鱼·云采集网络爬虫软件
www.bazhuayu.com
淘宝卖家信息采集步骤34
发现:
1. 采集量过少,出现漏数据。第一页明明有20条数据,实际只采集到6条。 原因:网页是滚动下拉加载数据,页面加载到下方才会展现相应的数据。 解决方法:在“打开网页”和“点击翻页”的高级选项中设置“滚动页面”,次数,间隔,方式应根据网站的实际加载情况来设置。
八爪鱼·云采集网络爬虫软件
www.bazhuayu.com
淘宝卖家信息采集步骤35
2. 采集出现大量重复数据,仔细观察采集情况发现其一直在一二页来回采,手动执行流程也发现第二次点击翻页后,页面跳回了第一页。 原因:循环翻页的XPath不对
解决方法:修改翻页循环的XPath,以求在每一页(除最后一页)均内定位到“下一页”,在分析网页源码后写出正确的XPath为:
//li/a[@trace=\将此XPath替换循环原有XPath。 此类问题可在教程中心搜索“一二页重复”一获得更详细的教程。