【10bet】robots.txt用法

来源:http://www.chinese-glasses.com 作者:Web前端 人气:109 发布时间:2020-03-14
摘要:(function(){ var bp = document.createElement('script'); var curProtocol = window.location.protocol.split(':')[0]; if (curProtocol === ''){ bp.src = ''; } else{ bp.src = ''; } var s = document.getElementsByTagName("script")[0]; s.parentNode.
(function(){ var bp = document.createElement('script'); var curProtocol = window.location.protocol.split(':')[0]; if (curProtocol === ''){ bp.src = ''; } else{ bp.src = ''; } var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(bp, s);})();

通配符|wildcard match

*:匹配任意多个字符

$:表示URL的结尾

路径必填 loc; 修改时间选填 lastmod 2009-12-14;

例子|examples

不管是Disallow,Allow还是Sitemap,每行只能写一条规则。Google本身就有一个robots.txt,值得大家参考。

拦截部分文件或目录

User-agent: * 
Disallow: /cgi-bin/ 
Disallow: /aaa.html

允许爬虫访问所有的目录,有两种写法

User-agent: * 
Disallow:

User-agent: * 
Allow: /

通配符的使用,拦截.gif文件

User-agent: * 
Disallow: /*.gif$

10bet,拦截带有?的文件

User-agent: * 
Disallow: /*?

Sitemap例子

Sitemap: http://www.ezloo.com/sitemap.xml

百度支持自动推送: 页面JS推送,RPC通知,URL POST

Disallow

Disallow表示禁止爬虫访问的目录。Disallow: / 表示拦截整站。

第三种, 单个XML文件, 默认文件名sitemap.xml, 百度是sitemap_baidu.xml

Allow

Allow表示允许爬虫访问的目录。Allow: / 表示允许整站。

1)curl推送示例将要提交的url数据写入一个本地文件,比如urls.txt,每个url占一行,然后调用curl命令:curl -H 'Content-Type:text/plain' --data-binary @urls.txt"?site=www.example.comtoken=edk7yc4rEZP9pDQD"使用php、python、java等可以参照这个过程推送结构化数据。2)post推送示例POST /urls?site=www.58.comtoken=edk7ychrEZP9pDQD HTTP/1.1User-Agent: curl/7.12.1 Host: data.zz.baidu.com Content-Length: 83)php推送示例$urls = array( '', '',);$api = '=www.58.comtoken=edk7ychrEZP9pDQD';$ch = curl_init();$options = array( CURLOPT_URL = $api, CURLOPT_POST = true, CURLOPT_RETURNTRANSFER = true, CURLOPT_POSTFIELDS = implode("n", $urls), CURLOPT_HTTPHEADER = array('Content-Type: text/plain'),);curl_setopt_array($ch, $options);$result = curl_exec($ch);echo $result;

robots.txt基本用法

?xml version="1.0" encoding="UTF-8"?sitemapindex xmlns="" sitemap loc /sitemap/sitemapindex

Sitemap

Sitemap用来指定sitemap的位置。

第二种, HTML格式, 允许加style标签, 一般布局是 htmlbodyullia[href,title]plainText, URL用全路径, 爬虫递归往下找;

主要作用是告诉蜘蛛爬虫该网站下哪些内容能抓取,哪些内容不能抓取。虽然可以没有robots.txt这个文件,默认就抓取该网站的所有文件,对搜索引擎爬虫没有任何的影响,但是如果你想控制蜘蛛的检索间隔,你就必须用robots.txt来控制。

年月日小时分钟:YYYY-MM-DDThh:mmTZD(2005-06-04T10:37+08:00)

注意|notice

  • URL区分大小写,所以 /abc/ 和 /Abc/ 表示不同的目录。
  • 后面有没有斜杠也是不一样的,/private 和 /private/也表示两个不同的地址。
?xml version="1.0" encoding="UTF-8"?urlset xmlns="" xmlns:xsi="-instance" xsi:schemaLocation=""url loc mobile:mobile type="htmladapt"/ priority0.5/priority lastmod2019-11-28T11:59:38+00:00/lastmod changefreqhourly/changefreq/urlurl loc priority0.5/priority lastmod2019-11-28/lastmod changefreqhourly/changefreq/url/urlset

Crawl-delay

Crawl-delay用来告诉爬虫两次访问的间隔,单位是秒。爬虫如果爬得很勤,对动态网站来说,压力有点大,可能会导致服务器负载增高,用户访问变慢。

在计算Crawl-delay时间的时候,要稍微计算一下,ysearchblog上有篇日志,介绍得很清楚。

为了爬虫, 在网站根目录创建robots.txt文件(utf-8),文件内容涉及四类键值对:User-agent,Disallow,Allow,Sitemap,支持正则, Disallow后没内容就是允许所有

User-agent

User-agent是用来匹配爬虫的,每个爬虫都会有一个名字,如果你有安装awstats统计工具,你就能查看到爬虫的名字,比如百度的爬虫叫BaiDuSpider,Google的爬虫叫Googlebot,*表示所有爬虫。

 

 

年和月:YYYY-MM(2005-06)

robots.txt不是一种规范,是约定俗成的,主流的搜索引擎都是遵循robots.txt的规则来索引页面,但是一些spam爬虫不会遵循,所以说robots.txt只能防君子,不能防小人,如果目录下有隐私的文件夹,建议设置密码或者登陆用户才能访问。

刷新频率: always 经常, hourly 每小时,daily 每天,weekly 每周, monthly 每月, yearly 每年, never 从不

本文由10bet发布于Web前端,转载请注明出处:【10bet】robots.txt用法

关键词:

最火资讯