全【quán】文介绍什么是爬虫robots,robots协议怎么写,网站的robots协议在哪里【lǐ】查看【kàn】,robots协议的具体内【nèi】容,及robots示例解【jiě】说,Robots协【xié】议中【zhōng】的【de】其它语法【fǎ】属【shǔ】性
50元付费解决Robots.txt 看完本文本还不知道Robots.txt怎么写.50元专人帮你解决
robots是网站【zhàn】跟爬虫【chóng】间的【de】协【xié】议,用【yòng】简单【dān】直【zhí】接的txt格式文本方式告【gào】诉【sù】对【duì】应的爬虫被允许的权限,也就是说【shuō】robots.txt是搜索【suǒ】引【yǐn】擎中访问网站的时候【hòu】要查看的第一个文件【jiàn】。当一个搜索蜘蛛访问一个站【zhàn】点时,它会首先【xiān】检查该【gāi】站点根目录【lù】下是否存在robots.txt,如果【guǒ】存在,搜索机【jī】器人就会按【àn】照该【gāi】文件中的【de】内容来确定访问的范围;如【rú】果该【gāi】文【wén】件不存在,所有的搜索蜘蛛将能【néng】够访问网站上所有没有被口【kǒu】令保护的页面。
用几个最常见的情况,直接举例说明:
User-agent:指定对哪些爬虫生效
Disallow:指定要屏蔽的网址
Allow:允许爬行的网址
例:禁止谷歌收录本站,
User-agent: Googlebot
Disallow:
例:禁止所有收录本站:
User-agent: *
Disallow: /
例:允许所有蜘蛛爬行所有
直接为空
User-agent: 这【zhè】里的代表的所【suǒ】有【yǒu】的搜索引擎种类【lèi】,*是一个【gè】通配符。
Disallow: /admin/ 这里定义是禁止爬寻【xún】admin目【mù】录下面的目录【lù】。
Disallow: /mahaixiang/*.htm 禁止访问/mahaixiang/目录【lù】下的所有以【yǐ】".htm"为后缀的URL(包【bāo】含子目录【lù】)。
Disallow: /? 禁止访问网站【zhàn】中所【suǒ】有包含问号 (?) 的【de】网址【zhǐ】。
Disallow: /.jpg$ 禁【jìn】止抓取【qǔ】网页所【suǒ】有的.jpg格式的图片。
Disallow:/mahaixiang/abc.html 禁止爬取【qǔ】ab文件夹下面的adc.html文【wén】件。
Allow: /mahaixiang/ 这里定义【yì】是允许爬寻mahaixiang目录【lù】下面【miàn】的目录。
Allow: /mahaixiang 这【zhè】里定【dìng】义是允【yǔn】许爬寻mahaixiang的整个目录。
Allow: .htm$ 仅允许访问【wèn】以【yǐ】".htm"为后缀的URL。
Allow: .gif$ 允许【xǔ】抓取网页【yè】和gif格式图【tú】片。
Sitemap: /sitemap.html 告【gào】诉爬虫这个页面是网【wǎng】站【zhàn】地图。
版权所有:深圳市网商在线科技有限公司
友情链接: