如何定位网站的SEO问题?

1、本文的主要内容有哪些呢？

（1）查找是否有黑链出现——从日志分析，百度蜘蛛抓取了网站的哪些预期外的页面，是否存在黑链。（这个可能要先卖个关子，因为这又是个大工程啦，本期专题会提到一些）

（2）百度站长工具外链分析——查看是否有垃圾外链、黑链等，以及链向的站内什么地方，如何处理。（本期里面也有所涉及）

（3）百度站长工具链接分析——三大死链（内链死链、链出死链、链入死链），批量下载数据，合并数据，excel操作，按逻辑分类，定位问题，处理问题。（定位和处理，材料不够，因为好多已经处理过了，没有材料了= =|||||）

（4）从分析这些数据，得到的与SEO效果相关的其他信息（垃圾搜索引擎、垃圾外链带来的无用抓取，浪费资源配额，如何拒绝。）

（5）如何自动化地使用shell脚本，定位到被百度蜘蛛抓取到的死链，并进行复查，然后将确定为死链的URL进行自动化提交。（本期专题内容太多，留作下期专题用）

（6）分析工具介绍（firefox设置，插件，excel，windows命令提示符批处理）

2、本文中主要使用到的工具

（只是结合例子中，如果有其他相似功能的工具，请结合自身习惯使用即可）

【浏览器】火狐（Firefox）浏览器，版本无所谓

【插件】：Launch Clipboard

功能：一键打开剪切板中存在的URL。（注意URL中只能有英文数字标点，如果有中文可能无法被识别）。快捷键：alt + shift +K（先复制好单个或者多个URL）

设置：打开选项设置，选择好下载文件自动保存的位置（我这里选择了桌面，你也可以单独创建一个文件夹，好对批量下载的文件进行归类）

【表格处理】：Microsoft Office 2013 Excel

【文本处理】：Notepad++

【批量处理】：Windows自带命令提示符

一、我们可以先看一下外链分析。

分析外链数据的主要目的是，找出垃圾外链，主动去封堵垃圾外链可能对网站造成的恶劣影响。最终目标：

1、找到垃圾外链的域名，进行防盗链处理（针对来源为垃圾域名的，直接返回404状态码）；

2、处理站内可能存在问题的页面。

这里，我会重点讲解第一点；第二点比较简单，我会讲解得比较粗略。

1、定位出垃圾域名。

图注：可以看到这是一个明显不正常的趋势图

我们可以下载外链数据，来进行初步分析。

图注：下载得到的表格文件（csv逗号分隔符）

但是这样一份原始数据，是很难进行分析的。因此我们需要按照一定逻辑对其进行分析——就是按照【被链接的网页url】进行分类。

首先，我们可以快速浏览一下，进行直观判断，这些页面大部分是什么页面呢？

针对我们网站的情况来说，外链数据分为两类，正常外链与垃圾外链。

而垃圾外链又分为两种：站内搜索结果页面（垃圾搜索词）以及被黑客入侵植入的黑链（已经处理为死链）。

我们进行数据处理的目的有两个：识别出哪些是正常外链，哪些是垃圾外链，并根据垃圾外链的相关数据，进行一些处理，保护好网站；并且需要使被垃圾链接指向的页面，不被搜索引擎抓取（浪费抓取配额）以及被收录/索引（保证网站词库不受污染，不为网站带来形象与关键词方面的负面影响）。

第一步，筛选出网站的搜索结果页面

图注：筛选数据、复制到新的sheet中，删除原始sheet中的筛选数据，来分类数据

还有几类搜索链接格式，都以相同方式进行处理。

然后把原始sheet中剩下的数据进行去重（空白行），得到剩余的链接信息。

图注：对剩余数据进行简单的去重处理。

然后，我们需要对黑链进行筛选。黑链的数据，一般需要先从网站日志中分析得到（这样是最全面的，为了保证效率，会需要使用到shell脚本来自动运行，但是涉及篇幅过多，我将在以后的专题中进行讲解）。

当然也可以对表格中【被链接的网页url】这一列按照顺序排序后，挨着分析得到（自己去打开，同时黑客会使用一些特殊手段，妨碍我们去识别真正的会被搜索引擎识别到的垃圾内容，最常见的情况就是，使用js跳转。这样我们通过浏览器访问时，会看到完全不一样的内容，而搜索引擎抓取时，则下载到了垃圾。）

这时，我们需要使用一款firefox插件【No Script】，，旨在屏蔽网站上的js，看到与搜索引擎类似的。

图注：屏蔽浏览器中java script的插件

本文来自投稿，不代表重蔚自留地立场，如若转载，请注明出处https://www.cwhello.com/38609.html

如有侵犯您的合法权益请发邮件951076433@qq.com联系删除