如何使用robots禁止各大搜索引擎爬蟲爬取網站

applek

2022-1-27

運維

1、搜索引擎在爬取網站前會做什么？

一般來說搜索引擎爬取網站時都會，先讀取下robots.txt文件，并依照里面所設定的規則去爬取網站（當然是指沒用登錄限制的頁面）

2、robots.txt文件的內容和結構是怎樣的？

1）.robots.txt文件必須是放在文件根目錄上：
例如：

├─admin

│ └─templates

│ header.tpl.php

│ task_add.tpl.php

│ └─robots.txt

2 ) .首先常用的命令為

User-agent : 可以具體制定User-agent適用，即搜索引擎的名字，如果為 * 的話則為通配

Disallow : 可以設定檔案或文件夾，不允許被爬蟲爬取，且為 / 時禁止爬取整站，也可以指定文件路徑，不可爬取

Crawl-delay: 延時爬取，防止爬蟲短時間內爬取網站過快導致網站崩潰，則可以設置該延時

Allow : 允許爬取指定頁面，為 / 時爬取整站

3）搜索引擎別稱

Googlebot 谷歌

Baiduspider 百度

等等

3、搜索引擎的好處和壞處是什么？

不好的地方會增加網站的訪問負荷;有時,還會涉及到用戶的隱私；

好的地方也是增加了訪問流量;

4、一般徹底防止爬蟲用什么方法？

如果需要防止的話，就需要監測網站，把一些不良網絡爬蟲的給堵止掉，一般是封IP。

robots.txt只能防止有品的爬蟲來爬

5、如何使用robots禁止各大搜索引擎爬蟲爬取網站

1.原來一般來說搜索引擎爬取網站時都會，先讀取下robots.txt文件，并依照里面所設定的規則去爬取網站（當然是指沒用登錄限制的頁面）

2.下面我們就來說一說如何設置robots.txt文件

1）.robots.txt文件必須是放在文件根目錄上：
例如：

├─admin

│ └─templates

│ header.tpl.php

│ task_add.tpl.php

│ └─robots.txt

2 ) .首先常用的命令為

User-agent : 可以具體制定User-agent適用，即搜索引擎的名字，如果為 * 的話則為通配

Disallow : 可以設定檔案或文件夾，不允許被爬蟲爬取，且為 / 時禁止爬取整站，也可以指定文件路徑，不可爬取

Crawl-delay: 延時爬取，防止爬蟲短時間內爬取網站過快導致網站崩潰，則可以設置該延時

Allow : 允許爬取指定頁面，為 / 時爬取整站

3）搜索引擎別稱

Googlebot 谷歌

Baiduspider 百度

等等

類似我們測試環境就設置了

User-agent : / 所有搜索引擎

Disallow : / 禁止整站

總結

User-agent: *
Disallow: /

就可以了..

作者：applek

鏈接：http://www.aaigroup.cn/banrobots.html

文章版權歸作者所有，未經允許請勿轉載。

THE END

CorePress Pro 主題1.3.2 更新日志

<<上一篇

MySQL 數據庫文件恢復方案

下一篇>>

国产精在线-国产精欧美一区二区三区-国产精视频-国产精品 日韩-一级黄色片在线看-一级黄色片在线播放