HTTP404或notfound错误信息是HTTP的标准响应信息(HTTP状态码)之一,也就是说,当客户端浏览网页时,服务器无法正常提供信息,或者服务器无故无法响应。
1.许多网站不可避免地存在死链接,但死链接的概率很高,这将影响搜索引擎对网站的评级。
2.搜索引擎每天抓取每个网站的频率。如果网站上有很多死链接,会浪费抓取配额,影响正常页面的抓取。
3.死链太多也是网站用户的糟糕表现。
百度站长工具有抓取异常,那么这个工具是如何产生异常数据的呢?
编辑错误或程序员粗心地使页面产生不存在的页面。
由于服务器、空间或程序问题,网站暂时无法访问,导致大量服务器错误页面返回500个代码。
当单个爬虫程序提取页面网址时,它们只提取网址的一部分或正常网址后的文本或字符。
站点修改时,未经301跳转到相应页面直接删除旧页面,或301跳转后部分旧页面无法访问。
网站管理员删除黑色、广告、过期和浸水的页面,导致许多死链接。
网页异常中的许多错误页面是由程序员的疏忽或程序问题引起的。它们应该是普通页面,因为它们不能被访问,因为它们是错误的。请尽快修复这样的页面。
404错误页面阻碍和改进网站优化。
但一定有很多错误的网页不应该存在,因此我们需要找到一个方法来获页面URL的方法,主要有以下三种:
(1)百度站长工具-抓取异常-找不到页面-复制数据[修复:这里不需要提交死链,百度站长工具会自动提交死链];
(2)删除网页时,管理员手动或自动保存被删除网页的URL;
(3)使用相关爬虫软件爬虫整个网站,获取死链,如Xenu。
然后将上述处理过的数据粘贴到网站根目录下的文档中,并将文档地址提交给百度站长工具-网页抓取-死链接提交-添加新数据-填写死链接文件地址。
如果大量错误的网址有一些规则,规则可以写在机器人文件中,以防止爬行器获得此类链接,但前提是正常页面应该妥善处理,以避免规则损坏正常页面。
向robots文件添加规则后,必须到百度站长的robots工具进行验证,将指定的错误页面放入,检查截取是否成功,然后将正常页面放入,检查是否被错误截取。
有关注意事项:
1.在百度站长工具中提交死链接之前,请确保提交的死链接数据中没有活链接。一旦有活动链,就会显示提交失败,无法删除。
2.由于很多网站程序的问题,很多不能打开的页面返回码都不是404,这是一个很大的问题。比如不能打开的页面返回码是301、200、500。如果是200,不同的网站会出现在网站上,得到同样的内容。比如在我的一个网站上,社区帖子被删除后,返回代码其实是500。后来发现了,马上处理。试着找出所有错误的URL格式,把HTTP状态代码设置为404。
3.找到所有错误的页面后,一定要找到这些页面的URL的相同特征,区分它们和普通页面的特征。将相应的规则写入机器人文件,禁止spider获取。即使你已经在网站管理员工具中提交了死链,建议机器人拦截并抓取它们。
4.机器人只能解决蜘蛛不再抓取这类页面的问题,但不能解决删除包含页面快照的问题。如果你的网站是黑色的,黑色的页面被删除,除了机器人禁止的黑色页面,这些页面也应该提交给死链。
推荐文章
- 对SEO优化快速排名的原理进行分析,提高操作流程2023-04
- 通过网页快照数据分析可以获得大量有利于SEO信息提升的信息。2023-04
- 【集中网站首页方法】盘点几种常见的中小企业集中网站权重方法。2023-04
- 利用网站栏目SEO布局关键字,处理关键字排名无法提高难题2023-04
- 处理网站流量异常下降时的措施?2023-04
- 包含关系在解读指数、收录、检索之间错综复杂。2023-02
- SEO优化网站的价值在于控制和扩展关键词。2023-02
- 对企业网站SEO内容优化营销推广的探索作用有哪些?2023-02
- 循规蹈矩做好白帽SEO升级工作,远离黑帽SEO优化的危害2023-02
- 如何提高网站标题和描述的URL?使用静态URL结构更有利于蜘蛛抓取2023-02
- 为了真正获得长期的排名和流量,公司必须选择白帽战略2023-02
- 为什么网站优化需要SEO思维?正确的SEO思维可以捕捉到精确的用户群体2023-02
- 从SEO结果指导到优化策略的全过程,对网站流量的分析应该是2023-02
- 对搜索引擎优化的各种网站服务器问题进行分析2023-02
- 总结了SEO提升人员的日常工作流程和提高优化技术的方法2023-02
- 在SEO升级中,搜索引擎优化不仅仅是升级,更注重每一个细节。2023-02
- 网站微调影响关键词排名怎么办?网站微调仍保持网站排名的方法2023-02
- 如果你想做好SEO优化,你离不开网站SEO检测工具的帮助2023-02