网站curl采集出现问题怎么办（一篇内容告诉你网站robots）

你有烈酒 2023-01-02 13:37:38

Robots

定义：搜索引擎协议。是搜索引擎蜘蛛来到网站后第一个抓取的文件（robots.txt文件）。

网站curl采集出现问题怎么办（一篇内容告诉你网站robots）(1)

文件包含：

Disallow不建议写太多，写多了极有可能会造成站点描述显示：由于该网站的robots.txt文件存在限制指令（限制搜索引擎抓取），系统无法提供该页面的内容描述！

建议写入不允许抓取

动态页面：即 Disallow: /?
敏感页面：例如被挂马的页面等。新建一个文件，将挂马页面链接/链接规则写入文件内，并上传至站点根目录后在robots文件内写入不允许抓取规则。即Disallow: www.xx.com/laji.txt

网站的任何页面千万不要删除！可以改页面，把标题、内容都替换掉。这么做完会发现网站关键词排名及权重及流量会大幅度上涨~

被挂马/黄赌毒的网站，外部链接数据会大量增加！造成这个原因就是因为掉入了蜘蛛池，我们可以合理利用这些外链，提升网站的关键词排名！

建议多写入允许抓取

重要页面
不收录的页面（新建一个文件，将未收录的页面链接写入文件内，并上传至站点根目录后在robots文件内写入允许抓取规则。即Allow: www.xx.com/zhuaqu.txt）

nofollow

定义：告诉搜索引擎nofollow的页面不重要不要传递权重，但可以抓取。

网站curl采集出现问题怎么办（一篇内容告诉你网站robots）(2)

网站nofollow不易过多！nofollow过多的页面收录、排名都不是很好！

URL优化

url优化是重中之重！

网站curl采集出现问题怎么办（一篇内容告诉你网站robots）(3)

抓取：

主动抓取是根据某些特征来抓取的！（大平台并不存在蹲守蜘蛛）特征分为url特征及内容特征。

URL特征：厂家1688、借势吸引蜘蛛（例如url带其他站的品牌或者域名www.xx.com/baiducom）

现在URL长短已经不影响收录了，只要主要下层级就可以了。

将标题类似的更新到同一目录下（标题、链接就会形成规则），可以减短搜索引擎蜘蛛分析爬取时间，做到一把抓！

希望本文内容对你有所帮助。想要阅读更多相关内容，请关注迟博勋博客，让營銷变得更简单！

免责声明：本文仅代表文章作者的个人观点，与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺，请读者仅作参考，并自行核实相关内容。文章投诉邮箱：anhduc.ph@yahoo.com