2024-10-10 21:46:02
,某些文章具有时效性,若有错误或已失效,请在文末留言。Robots协议也称爬虫协议、爬虫规则等,是指网站可建立一个robots.txt文件来告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取,而搜索引擎则通过读取robots.txt文件来识别这个页面是否允许被抓取。但是,这个robots协议不是防火墙,也没有强制执行力,搜索引擎完全可以忽视robots.txt文件去抓取网页的快照。
Robots.txt是存放在站点根目录下的一个纯文本文件,设置很简单,作用却很强大。它可以指定搜索引擎蜘蛛只抓取指定的内容,或者是禁止搜索引擎蜘蛛抓取网站的部分或全部内容。那么,Z-Blog博客网站中的robots.txt文件怎么设置呢?下面一起来看看吧!
Z-Blog网站文件结构
我们先来了解一下Z-Blog博客网站的文件结构。
⭐eed.php:RSS Feed 入口文件
⭐index.php:前端页面入口文件
⭐search.php:搜索入口文件
⭐zb_install 文件夹:zblog 初始化安装文件夹,安装完毕会自动删除,或手动删除
⭐zb_system 文件夹:为 zblog 框架的主要文件,需要屏蔽搜索蜘蛛去它以及它所包含的内容抓取
⭐zb_users 文件夹:为 zblog 为用户文件夹,里面包含了主题文件夹,插件文件夹,以及附件存放文件夹。
⭐avatar:用户头像文件夹
⭐cache:缓存文件夹
⭐data:数据文件夹(屏蔽蜘蛛)
⭐emotion:表情文件夹
⭐language:语言包文件夹(屏蔽蜘蛛)
⭐logs:目志文件夹,里面文件是记录错误的(屏蔽蜘蛛)
⭐plugin:插件文件夹
⭐theme:主题文件夹
⭐upload:附件文件夹(图片或其它类型文件)
Z-Blog网站的robots文件写法
User-agent: *
Disallow: /zb_system/
Disallow: /zb_users/data/
Disallow: /zb_users/language/
Disallow: /zb_users/logs/
Sitemap: https://www.11zhang.com/sitemap.xml
注意:最后一行的Sitemap为你博客网站的地图文件,可以在Z-Blog应用中心搜索相关插件生成。
robots文件使用说明
1、robots.txt可以告诉百度您网站的哪些页面可以被抓取,哪些页面不可以被抓取。
2、Robots.txt 文件应该放在网站根目录下,并且该文件是可以通过互联网进行访问的。
例如,如果您的网站地址是:https://www.11zhang.com,那么该文件必须能够通过 https://www.11zhang.com/robots.txt 打开并看到里面的内容。
3、您可以通过Robots工具来创建、校验、更新您的robots.txt文件。robots文件生成工具:http://tool.chinaz.com/robots
4、Robots工具目前支持48k的文件内容检测,请保证您的robots.txt文件不要过大,目录最长不超过250个字符。
5、百度站点管理中可以查看您网站robots.txt文件在百度生效的情况。
拓展:再来看看WordPress网站的robots文件写法,如下:
User-agent: *
Allow: /*.html$
Allow: /*.ico$
Allow: /*.png$
Allow: /*.jpg$
Allow: /*.jpeg$
Allow: /*.gif$
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/
Disallow: /wp-*.php
Disallow: /page/
Disallow: /author/1/page/
Sitemap: https://www.11zhang.com/sitemap.xml
●版权归原作者和机构所有,严禁商用,否则产生的一切后果将由您自己承担
●如果您不喜欢本站有您信息的存在,请邮件告知我们予以删除
暂无评论内容