获取内容网址
有常规模式和高级模式两种。
1.常规模式:该模式默认抓取一级地址,即从起始页源代码中获取到内容页A链接。
它有2种方式:a.自动获取地址链接b.手动设置规则获取。
2.高级模式:该模式对0级,多级,POST类型网址的抓取有效。
即起始网址就是内容页网址;
或者需要对多级列表网址采集才能得到最终内容页链接;
或者是post网址类型抓取等情况下使用高级模式。
下面对常规模式采集进行具体说明
高级模式详细教程后续分解
常规模式
a.自动获取地址链接
自动获取地址链接:自动获取该级列表页中所有的a标签内的URL链接
如新浪内地新闻:http://roll.news.sina.com.cn/article/gnxw/gdxw1/index.shtml
获取结果
共81个一级网址,但实际我们需要抓取的1级网址是每页40个,
所以我们可以通过区域设置和链接过滤设置来获取我们所需要的链接。
用谷歌浏览器在网页上右击——查看网页源代码,分析源码得出:
开始字符串为
结尾字符串为
这样我们再点击网址采集测试,可以看出结果是正确的。
常规模式
b.手动设置规则获取
对于有些由脚本生成的网址,采集器不能自动识别,此时就要手动设置规则获取了。
手动设置规则获取设置原理是编写脚本规则,去和源代码里的内容匹配,获取到自己设置的参数即可。
其中提取规则里的,(*),
免责声明:由于无法甄别是否为投稿用户创作以及文章的准确性,本站尊重并保护知识产权,根据《信息网络传播权保护条例》,如我们转载的作品侵犯了您的权利,请您通知我们,请将本侵权页面网址发送邮件到qingge@88.com,深感抱歉,我们会做删除处理。