互动 先见
+ - - - - - -
{{项目。标签}}
的见解

尖叫青蛙指南做几乎任何事情:55+方式看一个工具

最后更新于2020年2月。最初发表于2015年5月。

所以,我承认:当我们开始查看我们自己的博客流量时,我们意识到这是Seer域历史上最受欢迎的博客文章之一。经过短暂的思考和对永远存在的伟大的热情尖叫青蛙SEO蜘蛛在我们的技术搜索引擎优化之旅中,这个工具一直是我们的忠实伙伴,我们意识到我们正在做一件有害的事情——无论是对我们的读者,还是对伟大的尖叫青蛙的许多飞跃。

虽然这篇最初的指南是在2015年发布的,但在那之后的几年里,尖叫青蛙已经演变为提供了一整套新功能和简化的步骤来进行技术审计,检查网站的健康状况,或者只是快速浏览一些url的信息。

下面,你会发现一份更新的指南,介绍seo、PPC专业人员和数字营销专家如何使用该工具来简化他们的工作流程。

要开始,只需选择你想要做的:

基本的爬行

内部链接

网站内容

元数据和指令

网站地图

一般故障排除

PPC和分析

URL重写

关键字研究

链接建设

奖金轮


基本的爬行

如何抓取整个站点

在开始爬行时,花点时间评估一下您希望获得什么样的信息,站点有多大,以及您需要爬多少站点才能访问所有内容,这是一个好主意。有时,对于较大的站点,最好将爬虫限制在url的子部分,以获得具有代表性的数据样本。这使得文件大小和数据导出更易于管理。我们将在下面进一步详细讨论这个问题。为了爬行整个站点(包括所有子域),您需要对爬行器配置进行一些轻微的调整才能开始。

默认情况下,尖叫青蛙只爬你输入的子域。爬行器遇到的任何额外子域都将被视为外部链接。为了抓取额外的子域,您必须更改Spider Configuration菜单中的设置。通过检查“爬行所有子域”,你将确保蜘蛛爬行它遇到的任何链接到你的网站上的其他子域。

步骤1:

粘贴图像0 72

步骤2:

此外,如果您从特定的子文件夹或子目录开始爬行,并且仍然希望尖叫蛙爬行整个网站,请选中标记为“在开始文件夹外爬行”的复选框。

默认情况下,SEO Spider只设置为抓取转发的子文件夹或子目录。如果你想爬整个站点并从特定子目录开始,请确保将配置设置为在开始文件夹外爬行。

专家提示:

为了节省时间和磁盘空间,请注意在爬取过程中可能不需要的资源。网站链接到的不仅仅是网页。取消选中图像、CSS、JavaScript和SWF资源,以减少抓取的大小。

↑返回顶部

如何抓取单个子目录

如果您希望将爬行限制在单个文件夹,只需输入URL并按开始,而不更改任何默认设置。如果您已经覆盖了原始的默认设置,请在“文件”菜单中重置默认配置。

粘贴图像0 68

如果您希望在特定文件夹中开始爬行,但希望继续爬行到子域的其余部分,请务必在蜘蛛配置设置中选择“在开始文件夹外爬行”,然后再输入特定的开始URL。

粘贴图像0 70

↑返回顶部

如何抓取一组特定的子域或子目录

如果希望将爬行限制在特定的子域或子目录集,可以使用RegEx在“配置”菜单中的“包括或排除”设置中设置这些规则。

排除:

在这个例子中,我们抓取了seerinteractive.com上的每个页面,除了每个子域上的“关于”页面。

步骤1:

执行>排除配置;使用通配符正则表达式来标识要排除的url或参数。

粘贴图像0 77

步骤2:

在开始抓取之前,测试正则表达式,确保它排除了你希望排除的页面:

粘贴图像0 49

包含:

在下例中,我们只想抓取seerinteractive.com上的team子文件夹。同样,使用“Test”选项卡测试一些url,并确保RegEx为包含规则正确配置。

这是一种抓取大型站点的好方法;事实上,尖叫蛙推荐这种方法如果你需要划分和征服一个更大的域。

粘贴图像0 107

↑返回顶部

我想在我的网站上的所有页面的列表

默认情况下,尖叫蛙被设置为抓取蜘蛛遇到的所有图像、JavaScript、CSS和flash文件。要只抓取HTML,你必须在蜘蛛配置菜单中取消“检查图像”,“检查CSS”,“检查JavaScript”和“检查SWF”。

粘贴图像0 90

在未选中这些设置的情况下运行爬行器,实际上将为您提供站点上所有具有指向它们的内部链接的页面的列表。

爬行完成后,转到“内部”选项卡,通过“HTML”过滤你的结果。点击“导出”,你会看到CSV格式的完整列表。

粘贴图像0 79

专家提示:

如果你倾向于每次爬行使用相同的设置,尖叫青蛙现在允许你保存你的配置设置:

粘贴图像0 100

↑返回顶部

我想要一个特定子目录中所有页面的列表

除了取消“检查图片”,“检查CSS”,“检查JavaScript”和“检查SWF”,你还想在蜘蛛配置设置中取消“检查文件夹外的链接”。在未选中这些设置的情况下运行爬行器,实际上会为您提供起始文件夹中所有页面的列表(只要它们不是孤立的页面)。

↑返回顶部

如何找到一个网站上的所有子域名和验证内部链接。

有几种不同的方法可以找到站点上的所有子域名。

方法1:

使用尖叫蛙来识别给定网站上的所有子域名。导航到配置> Spider,并确保“抓取所有子域”被选中。就像在上面爬行整个网站一样,这将有助于爬行网站爬行中链接到的任何子域。但是,这将不会找到孤立或未链接的子域。

粘贴图像0 75

方法2:

使用谷歌标识所有索引子域。

通过使用刮刀Chrome扩展和一些先进的搜索操作符,我们可以为给定的域找到所有可索引的子域。

步骤1:

粘贴图像0 59

首先在谷歌中使用site: search操作符将结果限制到您的特定域。然后,使用-inurl搜索操作符通过删除主域来缩小搜索结果。您应该开始看到已在谷歌中索引的子域列表,这些子域不包含主域。

步骤2:

使用刮板扩展提取所有的结果到一个谷歌表。只需右键单击SERP中的URL,单击“抓取相似”并导出到谷歌文档。

步骤3:

在您的谷歌文档中,使用以下函数将URL修剪为子域:

=左(A2、搜索(“/”A2 9))

从本质上讲,上面的公式应该有助于去掉站点末尾的所有子目录、页面或文件名。这个公式本质上告诉表格或Excel返回尾随斜杠左边的内容。9的起始数字很重要,因为我们要求它开始寻找第9个字符后的斜杠。这说明了协议:https://,,长度为8个字符。

删除重复列表,并在列表模式中将列表上传到尖叫蛙中——您可以手动粘贴域列表,使用粘贴功能,或上传CSV。

粘贴图像0 73

方法3:

将根域URL输入帮助您查找可能存在于同一IP上的站点的工具或专门用于搜索子域的搜索引擎中。创建一个免费帐户登录和导出子域列表。然后,使用列表模式将列表上传到尖叫蛙。

一旦爬行器完成运行,您将能够看到状态代码,以及子域主页上的任何链接、锚文本和重复的页面标题。

↑返回顶部

如何抓取电子商务网站或其他大型网站

尖叫蛙最初并不是为了爬成千上万页而建造的,但由于一些升级,它每天都在接近。

最新版本的尖叫青蛙已经更新到依赖数据库存储爬行。在11.0版本中,尖叫蛙允许用户选择将所有数据保存到数据库中的磁盘,而不是仅仅保存在RAM中。这首次为爬行大型站点提供了可能。

在版本12.0中,爬行程序自动将爬行文件保存到数据库。这允许在顶级菜单中使用“File > Crawls”访问和打开它们——以防您惊慌失措,想知道打开命令去了哪里!

虽然使用数据库爬行可以帮助尖叫蛙更好地管理大型爬行,但它肯定不是爬行大型站点的唯一方法。

首先,你可以增加内存分配蜘蛛。

其次,你可以分解按子目录抓取或者只抓取站点的某些部分使用包含/排除设置。

第三,您可以选择不抓取图像、JavaScript、CSS和flash。通过取消选择Configuration菜单中的这些选项,您可以通过只抓取HTML来节省内存。

专家提示:

直到最近,尖叫青蛙搜索引擎优化蜘蛛可能暂停或崩溃时爬行一个大的网站。现在,使用数据库存储作为默认设置,您可以恢复爬取,从停止的地方开始。此外,您还可以访问排队的url。这可以让您了解您可能想要排除的任何其他参数或规则,以便对大型站点进行爬取。

粘贴图像0 114

↑返回顶部

如何抓取托管在旧服务器上的站点——或者如何在不崩溃的情况下抓取站点

在某些情况下,较旧的服务器可能无法处理每秒默认数量的URL请求。事实上,我们建议对每秒抓取的url数量进行限制,以尊重站点的服务器,以防万一。最好让客户知道你什么时候计划爬取一个站点,以防他们可能有针对未知用户代理的保护措施。一方面,他们可能需要在您抓取站点之前将您的IP或用户代理列入白名单。最坏的情况可能是您向服务器发送了太多的请求,并无意中使站点崩溃。

要更改爬行速度,请在Configuration菜单中选择“speed”,并在弹出窗口中选择应并发运行的最大线程数。从这个菜单中,您还可以选择每秒请求的url的最大数量。

粘贴图像0 86

专家提示:

如果你发现你的爬行导致了很多服务器错误,转到蜘蛛配置菜单中的“高级”选项卡,并增加“响应超时”和“5xx响应重试”的值,以获得更好的结果。

粘贴图像0 96

↑返回顶部

如何抓取需要cookie的网站

虽然搜索机器人不接受cookie,但如果你正在爬行一个网站,需要允许cookie,只需在蜘蛛配置菜单的“高级”选项卡中选择“允许cookie”。

粘贴图像0 105

↑返回顶部

如何使用不同的用户代理进行抓取

要使用不同的用户代理进行抓取,请在“配置”菜单中选择“用户代理”,然后从下拉菜单中选择搜索机器人或输入所需的用户代理字符串。

粘贴图像0 53

由于谷歌现在是移动优先的,请尝试以Googlebot智能手机的方式爬取站点,或者将用户代理修改为Googlebot智能手机的恶搞版本。这很重要,有两个不同的原因:

  1. 模仿Googlebot智能手机用户代理爬取站点可能有助于确定谷歌在爬取和呈现站点内容时遇到的任何问题。
  2. 在分析服务器日志时,使用Googlebot智能手机用户代理的修改版本将帮助您区分您的抓取和谷歌的抓取。

如何抓取需要身份验证的页面

当尖叫蛙蜘蛛遇到一个有密码保护的页面时,会出现一个弹出框,您可以在其中输入所需的用户名和密码。

基于表单的身份验证是一个非常强大的特性,可能需要JavaScript渲染才能有效工作。注意:基于表单的身份验证应该谨慎使用,并且只对高级用户使用。爬虫程序被设定为点击页面上的每个链接,因此这可能会导致链接注销你,创建帖子,甚至删除数据。

如果需要进行鉴权管理,请进入“配置>鉴权”。

若要关闭身份验证请求,请在配置菜单中的“身份验证”窗口中取消选择“基于标准的身份验证”。

粘贴图像0 87

↑返回顶部

内部链接

我想要关于我的网站上的所有内部和外部链接的信息(锚文本,指令,每页链接等)

如果您不需要检查网站上的图像、JavaScript、flash或CSS,请在Spider Configuration菜单中取消选择这些选项,以节省处理时间和内存。

粘贴图像0 92

一旦蜘蛛完成爬行,使用Bulk Export菜单导出“所有链接”的CSV。这将为您提供所有的链接位置,以及相应的锚文本,指令等。

粘贴图像0 110

所有的链接都可以是一个大报告。在导出时要注意这一点。对于大型站点,此导出有时需要几分钟才能运行。

要快速统计每页上的链接数量,请转到“内部”选项卡并按“外链接”排序。超过100的,可能需要重新检查。

粘贴图像0 112

需要更加工的东西吗?查看这篇关于计算重要性的教程由艾莉森·哈恩和赞恩·克拉克领导的内部链接

↑返回顶部

如何在页面或网站上找到损坏的内部链接

如果您不需要检查网站的图像、JavaScript、flash或CSS,请在“Spider Configuration”菜单中取消选择这些选项,以节省处理时间和内存。

一旦爬行器完成爬行,按“状态码”对“内部”选项卡结果进行排序。任何404's, 301's或其他状态代码将很容易查看。

单击抓取结果中的任何URL时,您将在程序的底部窗口中看到信息更改。通过点击底部窗口的“In Links”选项卡,你会发现一个链接到所选URL的页面列表,以及这些链接上使用的锚文本和指令。您可以使用此特性来识别需要更新内部链接的页面。

若要导出包含损坏链接或重定向链接的完整页面列表,请在“高级导出”菜单中选择“重定向(3xx)链接”或“客户端错误(4xx)链接”或“服务器错误(5xx)链接”,您将获得数据的CSV导出。

若要导出包含损坏链接或重定向链接的完整页面列表,请访问“批量导出”菜单。向下滚动到响应代码,并查看以下报告:

  • 无响应链接
  • 重定向(3xx)链接
  • 重定向(JavaScript)链接
  • 重定向(元刷新)链接
  • 客户端错误(4xx)链接
  • 服务器错误(5xx)链接

粘贴图像0 52

通过检查所有这些报告,我们可以充分了解应该更新哪些内部链接,以确保它们指向URL的规范版本,并有效地分配链接公平性。

↑返回顶部

如何在页面或网站上找到损坏的出站链接(或一般所有出站链接)

在蜘蛛配置设置中取消选择“检查图片”,“检查CSS”,“检查JavaScript”和“检查SWF”后,确保“检查外部链接”仍然选中。

蜘蛛完成爬行后,点击顶部窗口的“外部”选项卡,按“状态码”排序,你将很容易找到状态码不是200的url。在抓取结果中单击任何一个URL,然后在底部窗口中单击“in Links”选项卡,您将发现指向所选URL的页面列表。您可以使用此特性来识别需要更新出站链接的页面。

要导出出站链接的完整列表,请单击“批量导出”选项卡上的“外部链接”。

粘贴图像0 56

要查看出站链接的所有位置和锚文本的完整列表,请在“批量导出”菜单中选择“所有出站链接”。所有出站报告将包括出站链接到您的子域以及;如果你想排除你的域名,依赖于上面提到的“外部链接”报告。

↑返回顶部

如何找到被重定向的链接

在爬行器完成爬行后,从主UI中选择“响应代码”选项卡,并根据状态代码进行过滤。因为尖叫青蛙使用正则表达式进行搜索,所以提交以下条件作为过滤器:301|302|307。这应该会给你一个相当可靠的列表,所有链接返回某种重定向,无论内容是永久移动,发现和重定向,或临时重定向由于HSTS设置(这可能是307重定向在尖叫青蛙)。按“状态代码”排序,您将能够按类型分解结果。单击底部窗口中的“In Links”选项卡,查看使用了重定向链接的所有页面。

如果直接从该选项卡导出,则只能看到顶部窗口中显示的数据(原始URL、状态代码以及重定向到的位置)。

若要导出包含重定向链接的完整页面列表,您必须在“高级导出”菜单中选择“重定向(3xx)在链接中”。这将返回一个CSV,其中包括所有重定向链接的位置。若要仅显示内部重定向,请过滤CSV中的“目的地”列以仅包括您的域。

ProTip:

在上面的两个导出文件之间使用VLOOKUP将Source和Destination列与最终URL位置匹配。

样本公式:

= VLOOKUP ([@Destination],”response_codes_redirection_ (3 xx) . csv的!一个美元3:F 50美元,6日假)

(其中' response_codes_redirection_(3xx). CSV '是包含重定向url的CSV文件,' 50 '是该文件中的行数。)

需要找到和修复重定向链?@dan_shure给出了如何做到这一点的详细说明在这里

↑返回顶部

我正在寻找内部链接的机会

内部链接机会可以产生巨大的投资回报率——特别是当你在战略上考虑PageRank和链接权益、关键字排名和富含关键字的锚点的分布时。

我们内部链接机会的资源可以归结为我们自己的Allison Hahn和Zaine Clark创建的令人印象深刻的Power BI仪表盘。了解更多在这里

↑返回顶部

网站内容

如何识别内容稀薄的页面

爬行器完成爬行后,转到“内部”选项卡,通过HTML进行过滤,然后向右滚动到“单词计数”列。将“字数”列从低到高排序,以找到文本内容低的页面。您可以将“单词计数”列拖放到左边,以便更好地将低单词计数值匹配到适当的url。如果您更喜欢在CSV中操作数据,则单击“内部”选项卡中的“导出”。

电子商务网站专业提示:

虽然上面的单词计数方法将量化页面上的实际文本,但仍然无法判断找到的文本只是产品名称,还是在关键字优化的复制块中。要计算文本块的字数,请使用ImportXML2 by@iamchrisle要刮取任何页面列表上的文本块,然后从那里开始计数字符。如果xPath查询不是您的强项,那么xPath助手xpathChrome扩展在为您计算xPath方面做得很好。显然,你也可以使用这些抓取的文本块来开始理解网站上的整体单词用法,但是,我的朋友们,这是另一篇文章……

↑返回顶部

我想要一个特定页面上的图像链接列表

如果您已经爬取了整个网站或子文件夹,只需在顶部窗口中选择该页面,然后单击底部窗口中的“图像信息”选项卡,即可查看该页面上找到的所有图像。这些图片将被列在“To”列中。

专家提示:

右键单击底部窗口中的任何条目以复制或打开URL。

或者,您也可以通过只抓取该URL来查看单个页面上的图像。确保你的爬行深度在蜘蛛配置设置中被设置为“1”,然后一旦页面被爬行,点击“图像”选项卡,你会看到蜘蛛找到的任何图像。

↑返回顶部

如何找到图像,是缺少alt文本或图像有冗长的alt文本

首先,你要确保在Spider Configuration菜单中选中了“Check Images”。蜘蛛完成爬行后,转到“图像”选项卡,通过“缺失Alt文本”或“Alt文本超过100个字符”进行过滤。您可以通过单击底部窗口中的“图像信息”选项卡找到任何图像所在的页面。页面将列在“从”列中。

最后,如果您更喜欢CSV,使用“批量导出”菜单导出“所有图像”或“图像缺少Alt文本链接”,以查看完整的图像列表,它们的位置以及任何相关的Alt文本或Alt文本问题。

粘贴图像0 102

此外,使用右边的边栏导航到爬取的图像部分;在这里,您可以轻松地导出所有缺少Alt文本的图像列表。

粘贴图像0 91

↑返回顶部

如何在我的网站上找到每个CSS文件

在蜘蛛配置菜单中,在爬行之前选择“爬行”和“存储”CSS,然后当爬行完成时,在“内部”选项卡中通过“CSS”过滤结果。

粘贴图像0 62

↑返回顶部

如何在我的网站上找到每个JavaScript文件

在蜘蛛配置菜单中,在爬行之前选择“检查JavaScript”,然后当爬行完成时,在“内部”选项卡中通过“JavaScript”过滤结果。

↑返回顶部

如何识别网站上使用的所有jQuery插件以及它们被用于哪些页面

首先,确保在Spider Configuration菜单中选中了“Check JavaScript”。蜘蛛完成爬行后,通过“JavaScript”过滤“Internal”选项卡,然后搜索“jquery”。这将为您提供一个插件文件列表。根据“地址”对列表进行排序,以便在需要时更容易查看,然后在底部窗口中查看“InLinks”,或将数据导出为CSV,以找到使用该文件的页面。这些将在“发件人”一栏。

或者,您可以使用“高级导出”菜单导出“所有链接”的CSV,并过滤“目的地”列,只显示使用“jquery”的url。

专家提示:

并非所有jQuery插件都不利于SEO。如果您看到一个站点使用jQuery,最好的做法是确保您想要被索引的内容包含在页面源代码中,并且在页面加载时提供,而不是在加载之后。如果你仍然不确定,谷歌插件了解更多关于它如何工作的信息。

↑返回顶部

如何找到flash嵌入现场

在蜘蛛配置菜单中,在爬行之前选择“检查SWF”,然后当爬行完成时,在“内部”选项卡中通过“Flash”过滤结果。

这对于查找和识别通过Flash交付的内容并为内容建议替代代码越来越重要。Chrome正在全面弃用Flash;如果网站上的关键内容和Flash存在问题,这真的是应该用来突出显示的东西。

注:此方法将仅查找页面上链接的. swf文件。如果flash是通过JavaScript导入的,则需要使用自定义过滤器。

↑返回顶部

如何找到任何内部pdf链接的现场

蜘蛛完成爬行后,在' Internal '选项卡中通过' PDF '过滤结果。

↑返回顶部

如何理解一个网站或一组页面中的内容分割

如果希望在站点上查找包含特定类型内容的页面,请为该页面特有的HTML占用设置自定义筛选器。这需要在运行爬行器之前设置。

↑返回顶部

如何找到有社交分享按钮的页面

要查找包含社交共享按钮的页面,需要在运行爬行器之前设置自定义筛选器。要设置自定义过滤器,进入配置菜单并单击“自定义”。从那里,输入来自页面源代码的任何代码片段。

粘贴图像0 84

在上面的例子中,我想找到包含Facebook“喜欢”按钮的页面,所以我为facebook.com/plugins/like.php创建了一个过滤器。

↑返回顶部

如何找到使用iframe的页面

要查找使用iframe的页面,请为<设置自定义筛选器。Iframe,然后运行蜘蛛。

↑返回顶部

如何找到包含嵌入式视频或音频内容的页面

若要查找包含嵌入视频或音频内容的页面,请为Youtube或网站上使用的任何其他媒体播放器的嵌入代码片段设置自定义筛选器。

粘贴图像0 60

↑返回顶部

元数据和指令

如何识别具有冗长的页面标题、元描述或url的页面

蜘蛛完成爬行后,转到“页面标题”选项卡,通过“超过60个字符”筛选,查看太长的页面标题。你可以在“Meta Description”标签或“URI”标签中做同样的事情。

粘贴图像0 65

↑返回顶部

如何找到重复的页面标题,元描述,或url

蜘蛛完成爬行后,转到“页面标题”选项卡,然后通过“复制”进行过滤。你可以在“Meta Description”或“URI”选项卡中做同样的事情。

粘贴图像0 67

↑返回顶部

如何找到重复的内容和/或url,需要重写/重定向/规范化

蜘蛛完成爬行后,转到“URI”选项卡,然后通过“下划线”、“大写”或“非ASCII字符”进行过滤,以查看可能被重写为更标准结构的url。通过“重复”过滤,你会看到有多个URL版本的所有页面。通过“参数”过滤,你会看到包含参数的url。

粘贴图像0 55

此外,如果你转到“内部”选项卡,通过“HTML”进行过滤,并滚动到最右边的“散列”列,你会看到每页都有一系列独特的字母和数字。如果单击“导出”,您可以使用Excel中的条件格式来突出显示此列中的重复值,最终显示出相同且需要处理的页面。

粘贴图像0 78

↑返回顶部

如何识别所有包含元指令的页面,例如:nofollow/noindex/noodp/canonical等。

在爬行器完成爬行后,单击“指令”选项卡。要查看指令的类型,只需向右滚动查看哪些列被填充,或使用过滤器找到以下任何标记:

  • 指数
  • noindex
  • 遵循
  • nofollow
  • noarchive
  • nosnippet
  • noodp
  • noydir
  • noimageindex
  • notranslate
  • unavailable_after
  • 刷新

粘贴图像0 80

↑返回顶部

如何验证我的robots.txt文件是否按预期运行

默认情况下,尖叫青蛙将遵守robots.txt。作为优先级,它将遵循专门为尖叫青蛙用户代理制定的指令。如果没有针对尖叫蛙用户代理的特定指令,那么蜘蛛将遵循Googlebot的任何指令,如果没有针对Googlebot的特定指令,蜘蛛将遵循所有用户代理的全局指令。蜘蛛只会遵循一组指令,所以如果有专门为尖叫蛙设置的规则,它只会遵循这些规则,而不是Googlebot或任何全局规则。如果你想从蜘蛛阻止网站的某些部分,使用常规的robots.txt语法与用户代理“尖叫青蛙SEO蜘蛛”。如果您希望忽略robots.txt,只需在Spider Configuration设置中选择该选项。

> Robots.txt >设置

粘贴图像0 104

↑返回顶部

如何在我的网站上找到或验证模式标记或其他微数据

要查找包含Schema标记或任何其他微数据的每个页面,需要使用自定义过滤器。只需在配置菜单中单击“自定义”→“搜索”,并输入您要查找的足迹。

要查找包含Schema标记的每个页面,只需将以下代码片段添加到自定义过滤器:itemtype=http://schema.org

要找到特定类型的标记,您必须更加具体。例如,为span itemprop= " ratingValue "›使用自定义过滤器将获得包含用于评级的Schema标记的所有页面。

从尖叫蛙11.0开始,SEO蜘蛛还为我们提供了直接从抓取中抓取、提取和验证结构化数据的能力。在爬行时,根据Schema.org的指导方针和谷歌的规范实时验证任何JSON-LD、Microdata或RDFa结构化数据。要访问结构化数据验证工具,请选择“Config > Spider > Advanced”下的选项。

粘贴图像0 89

现在在主界面中有一个结构化数据选项卡,允许你在包含结构化数据的页面之间切换,这些页面缺少结构化数据,并且可能有验证错误或警告:

粘贴图像0 106

您还可以通过访问“报告>结构化数据>验证错误和警告”批量导出结构化数据的问题。

粘贴图像0 103

↑返回顶部

网站地图

如何创建XML站点地图

在爬行器完成对站点的爬行后,点击“Siteamps”菜单并选择“XML Sitemap”。

粘贴图像0 54

打开XML站点地图配置设置后,您可以根据响应代码、最后修改、优先级、更改频率、图像等包括或排除页面。默认情况下,尖叫青蛙只包括2xx个url,但这是一个很好的经验法则,总是反复检查。

粘贴图像0 88

理想情况下,XML站点地图应该只包含每个URL的200个状态、单个首选(规范)版本,不包含参数或其他重复因素。一旦做出任何更改,点击OK。XML站点地图文件将下载到您的设备上,并允许您按照自己的意愿编辑命名约定。

通过上传url创建XML站点地图

您还可以通过从现有文件上传url或手动粘贴到尖叫蛙来创建XML站点地图。

将“模式”从蜘蛛改为列表,然后点击上传下拉菜单选择其中一个选项。

粘贴图像0 74粘贴图像0 51

点击开始按钮,尖叫青蛙将抓取上传的url。一旦抓取了url,您将遵循上面列出的相同过程。

↑返回顶部

如何检查我现有的XML站点地图

您可以轻松下载现有的XML站点地图或站点地图索引,以检查任何错误或抓取差异。

粘贴图像0 51

在尖叫蛙的“模式”菜单中选择“列表”。然后,点击屏幕顶部的“上传”,选择下载站点地图或下载站点地图索引,输入站点地图URL,并开始抓取。一旦爬行器完成爬行,你将能够找到任何重定向,404错误,重复的url和更多。您可以很容易地导出和识别的错误。

在XML站点地图中识别丢失的页面

您可以配置您的抓取设置,以发现XML站点地图中的url并将其与站点抓取中的url进行比较。

转到主导航中的“配置”->“蜘蛛”,在底部,有一些XML站点地图选项-通过robots.txt文件自动发现XML站点地图或手动输入XML站点地图链接到框中。*重要提示-如果你的robots.txt文件不包含指向你想要抓取的所有XML站点地图的正确目标链接,你应该手动输入它们。

粘贴图像0 95

一旦你更新了你的XML站点地图抓取设置,转到导航中的“抓取分析”,然后单击“配置”,并确保站点地图按钮被勾选。你需要先运行完整的站点抓取,然后导航回“抓取分析”并点击开始。

粘贴图像0 85

完成爬取分析后,您将能够看到任何爬取差异,例如在完整的站点爬取中检测到的url在XML站点地图中缺失。

一般故障排除

如何确定为什么我的网站的某些部分没有被索引或没有排名

想知道为什么某些页面没有被索引吗?首先,确保它们没有被意外地放入robots.txt或标记为noindex。接下来,您将希望确保爬行器能够通过检查内部链接.网站上没有内部链接的页面通常被称为孤立页面。

为了识别孤立页面,请完成以下步骤:

  • 转到主导航中的“配置”->“蜘蛛”,在底部有一些XML站点地图选项-通过robots.txt文件自动发现XML站点地图或手动输入XML站点地图链接到框中。*重要提示-如果你的robots.txt文件不包含你想要抓取的所有XML站点地图的正确目标链接,你应该手动输入它们。
  • 转到“配置→API访问”→“谷歌分析”-使用API可以为特定帐户和视图拉入分析数据。要从有机搜索中找到孤儿页面,请确保根据“有机流量”进行细分粘贴图像0 66
  • 如果你想在GA中发现的url被包含在你的完整网站抓取中,你也可以去通用→“抓取谷歌分析中发现的新url”。如果未启用此功能,则只能在orphan Pages报告中查看从GA提取的任何新url。

粘贴图像0 71

  • 转到“配置→API访问”→“谷歌搜索控制台”-使用API可以为特定帐户拉入GSC数据并查看。为了找到孤儿页面,你可以寻找url接收点击和印象,不包括在你的爬行。
    • 如果您希望在GSC中发现的url包含在您的完整站点抓取中,您也可以转到通用→“抓取在谷歌搜索控制台中发现的新url”。如果未启用此功能,则只能在orphan Pages报告中查看从GSC提取的任何新url。
  • 抓取整个网站。爬行完成后,转到“爬行分析—> Start”,等待它完成。
  • 在每个选项卡中查看孤立的url,或者通过“报告→孤立页面”批量导出所有孤立的url

粘贴图像0 50

如果您无法访问谷歌Analytics或GSC,您可以将内部url列表导出为. csv文件,使用“内部”选项卡中的“HTML”过滤器。

打开CSV文件,在第二个工作表中,粘贴未被索引或排名不佳的url列表。使用VLOOKUP查看第二个工作表中列表中的url是否在爬取中找到。

↑返回顶部

如何检查我的网站迁移/重新设计是否成功

@ipullrank有一个优秀的白板上星期五但是总的想法是你可以使用尖叫青蛙来检查旧的url是否被重定向,通过使用“列表”模式来检查状态码。如果旧的url抛出404错误,那么您将知道哪些url仍然需要重定向。

↑返回顶部

如何在我的网站上找到缓慢加载的页面

爬行器完成爬行后,转到“响应代码”选项卡,根据“响应时间”列从高到低进行排序,以找到可能遭受加载速度较慢的页面。

↑返回顶部

如何在我的网站上找到恶意软件或垃圾邮件

首先,您需要识别恶意软件或垃圾邮件的足迹。接下来,在配置菜单中,单击“自定义”→“搜索”,并输入您正在寻找的足迹。

粘贴图像0 97

每次爬行最多可以输入10个不同的足迹。最后,按OK并继续爬行站点或页面列表。

粘贴图像0 99

当爬行器完成爬行后,在顶部窗口中选择“Custom”选项卡来查看包含足迹的所有页面。如果您输入了多个自定义筛选器,则可以通过更改结果上的筛选器来查看每个筛选器。

↑返回顶部

PPC和分析

如何验证我的谷歌分析代码是在每个页面上,或在我的网站上的一组特定的页面

SEER明矾@RachaelGerson写了一篇关于这个话题的文章:使用尖叫青蛙验证谷歌分析代码.点击这里查看详情!

↑返回顶部

如何批量验证PPC url列表

将列表保存为txt或csv格式,然后将“模式”设置更改为“列表”。

粘贴图像0 74

接下来,选择要上传的文件,然后按“开始”键,或者手动将列表粘贴到“尖叫青蛙”中。通过查看“内部”选项卡查看每个页面的状态代码。

要检查您的页面是否包含GA代码,请查看这篇文章使用自定义过滤器验证谷歌分析代码通过@RachaelGerson

↑返回顶部

如何抓取页面列表的元数据

所以,你已经收获了一堆url,但你需要更多关于它们的信息?将您的模式设置为“列表”,然后上传。txt或。csv格式的url列表。在爬行器完成之后,您将能够看到状态代码、出站链接、字数,当然还有列表中每个页面的元数据。

↑返回顶部

如何抓取包含特定占用空间的所有页面的站点

首先,您需要识别占用空间。接下来,在配置菜单中,单击“自定义”→“搜索”或“提取”,并输入您正在寻找的足迹。

粘贴图像0 97

每次爬行最多可以输入10个不同的足迹。最后,按OK并继续爬行站点或页面列表。在下面的例子中,我想要找到所有在定价部分显示“Please Call”的页面,所以我从页面源代码中找到并复制了HTML代码。

粘贴图像0 69

当爬行器完成爬行后,在顶部窗口中选择“Custom”选项卡来查看包含足迹的所有页面。如果您输入了多个自定义筛选器,则可以通过更改结果上的筛选器来查看每个筛选器。

以下是一些额外的常见足迹,你可以从网站上刮下来,可能对你的SEO审计有用:

  • http://schema\.org -查找包含schema.org的页面
  • youtube.com/embed/| youtube. be|<视频|player.vimeo.com/video/|wistia.(com|net)/embed|sproutvideo.com/embed/|view.vzaar.com|dailymotion.com/embed/|players.brightcove.net/|play.vidyard.com/|kaltura.com/(p|kwidget)/ -查找包含视频内容的页面

专家提示:

如果您正在从客户端站点提取产品数据,您可以通过要求客户端直接从其数据库中提取数据来节省一些时间。上述方法适用于您不能直接访问的网站。

↑返回顶部

URL重写

如何从我抓取的url中找到并删除会话id或其他参数

要识别带有会话id或其他参数的url,只需使用默认设置抓取站点。当爬行器完成后,单击“URI”选项卡并过滤到“参数”以查看包含参数的所有url。

要从所抓取的URL中删除显示的参数,请在配置菜单中选择“URL重写”,然后在“删除参数”选项卡中,单击“添加”以添加您想要从URL中删除的任何参数,并按“确定”。“你必须用这些设置再次运行蜘蛛,以便重写发生。

粘贴图像0 94

↑返回顶部

如何重写抓取的url(例如:用.co替换。com)。uk,或将所有url写成小写)

要重写您抓取的任何URL,请在配置菜单中选择“URL重写”,然后在“正则表达式替换”选项卡中,单击“添加”为您想要替换的内容添加正则表达式。

粘贴图像0 76

一旦你添加了所有想要的规则,你就可以在“test”选项卡中测试你的规则,方法是在标记为“URL before rewrite”的空间中输入一个测试URL。“重写后的URL”将根据您的规则自动更新。

粘贴图像0 81

如果您希望设置一个规则,所有url都以小写形式返回,只需在“选项”选项卡中选择“发现的小写url”。这将删除爬行中大写url的任何重复。

粘贴图像0 111

请记住,为了使URL重写发生,您必须实际使用这些设置运行爬行器。

↑返回顶部

关键字研究

如何知道我的竞争对手最看重哪些页面

一般来说,竞争对手会试图通过内部链接来扩大链接的受欢迎程度,并将流量引向最有价值的页面。任何具有seo意识的竞争对手可能也会链接到他们公司博客的重要页面。通过抓取竞争对手的网站来找到他们的宝贵页面,然后将“内部”标签按“链接”列从高到低排序,看看哪些页面拥有最多的内部链接。

粘贴图像0 113

要查看从竞争对手的博客链接的页面,取消选择“检查文件夹外的链接”在蜘蛛配置菜单和抓取博客文件夹/子域。然后,在“外部”选项卡中,使用搜索主域的URL来过滤结果。滚动到最右边,按“链接”列对列表进行排序,看看哪些页面被链接得最多。

专家提示:

将列向左或向右拖放,以改进数据视图。

↑返回顶部

如何知道什么锚文本我的竞争对手正在使用内部链接

在“批量导出”菜单中,选择“所有锚文本”,导出一个包含网站上所有锚文本的CSV,包括它的使用位置和链接内容。

粘贴图像0 83

↑返回顶部

如何知道哪些元关键字(如果有的话)我的竞争对手已经添加到他们的页面

在爬行器完成运行后,查看“Meta Keywords”选项卡,查看为每个页面找到的任何Meta关键字。按“元关键字1”列排序,按字母顺序排列列表,并在视觉上分离空白条目,或简单地导出整个列表。

↑返回顶部

链接建设

如何分析一个列表的潜在链接位置

如果你已经抓取或以其他方式提出了一个需要审查的url列表,你可以上传并以“列表”模式抓取它们,以收集有关页面的更多信息。当爬行器完成爬行后,在“响应代码”选项卡中检查状态代码,并在底部窗口的“Outlinks”选项卡中查看出站链接、链接类型、锚文本和nofollow指令。这将让你知道这些页面链接到什么类型的网站以及如何链接。要查看“Outlinks”选项卡,请确保在顶部窗口中选中了您感兴趣的URL。

当然,您需要使用自定义过滤器来确定这些页面是否已经链接到您。

粘贴图像0 64

你也可以在“批量输出”菜单中按“所有输出链接”,导出我们的全部链接列表。这将不仅为您提供指向外部网站的链接,而且还将显示列表中各个页面上的所有内部链接。

粘贴图像0 58

要想了解更多链接建设的好主意,请查看这两个很棒的帖子链接填海而且使用链接勘探者与尖叫青蛙由SEER自己@EthanLyon而且@JHTScherck

↑返回顶部

如何找到失效链接的外展机会

所以,你找到了一个网站,你想从一个链接?用尖叫青蛙查找损坏的链接在想要的页面或整个网站上,然后联系网站所有者,建议你的网站在适用的情况下替换坏链接,或者只是提供坏链接作为善意的象征。

↑返回顶部

如何验证我的反向链接和查看锚文本

上传你的反向链接列表,并在“列表”模式下运行蜘蛛。然后,通过单击“高级导出菜单”中的“All Out links”导出出站链接的完整列表。这将为您提供这些页面上所有链接的url和锚文本/alt文本。然后,您可以在CSV的“目的地”列上使用过滤器来确定您的网站是否被链接,以及包含哪些锚文本/alt文本。

@JustinRBriggs有好看的花絮吗检查信息图表反向链接尖叫青蛙.看看他提到的其他17个链接构建工具。

↑返回顶部

如何确保我不是链接网络的一部分

想要确定一组网站是否相互链接?看看这个教程使用尖叫蛙和融合表可视化链接网络通过@EthanLyon

↑返回顶部

我在清理我的反向链接的过程中,需要验证链接正在按要求删除

设置一个包含根域URL的自定义过滤器,然后上传反向链接列表,并以“列表”模式运行爬行器。当爬行器完成爬行后,选择“Custom”选项卡来查看所有仍然链接到您的页面。

↑返回顶部

奖金轮

粘贴图像0 57

您知道吗?通过右键单击结果顶部窗口中的任何URL,您可以执行以下任何操作?

  • 复制或打开URL
  • 重新抓取URL或将其从抓取中删除
  • 导出URL信息,在链接,出链接,或图像信息的页面
  • 检查谷歌,必应和雅虎的页面索引
  • 检查在磅礴,OSE, Ahrefs和Blekko页面的反向链接
  • 查看页面的缓存版本/缓存日期
  • 查看该页的旧版本
  • 验证页面的HTML
  • 打开页面所在域的robots.txt
  • 在同一IP上搜索其他域

粘贴图像0 101

同样地,在底部窗口中,右键单击,你可以:

  • 复制或打开选定行的“从”列的“到”中的URL

如何编辑元数据

SERP模式允许您按设备预览SERP片段,以直观地显示您的元数据将如何出现在搜索结果中。

  • 上传url,标题和元描述到尖叫蛙使用。csv或Excel文档
    • 如果你已经对你的网站进行了抓取,你可以通过“报告→SERP摘要”来导出url。这将很容易格式化你想要重新加载和编辑的url和元。
  • 模式→SERP→上传文件
  • 编辑尖叫青蛙内的元数据粘贴图像0 82
  • 批量导出更新后的元数据,直接发送给开发人员进行更新

如何抓取JavaScript站点

使用JavaScript框架(如Angular、React等)构建网站变得越来越普遍。谷歌强烈建议使用渲染解决方案,因为Googlebot仍然难以抓取javascript内容。如果你已经确定了一个使用javascript构建的网站,请按照下面的说明来抓取该网站。

  • “配置→蜘蛛→渲染→JavaScript

粘贴图像0 98

  • 根据需要更改呈现首选项。您可以调整超时时间,窗口大小(手机,平板电脑,台式机等)
  • 点击OK并抓取网站

在底部导航中,单击render Page选项卡查看页面是如何呈现的。如果页面没有正确呈现,请检查阻塞的资源或在配置设置中延长超时限制。如果这两个选项都不能解决页面呈现的问题,那么可能有更大的问题需要解决。

粘贴图像0 93

点击“批量导出”→“响应代码”,您可以查看和批量导出任何可能影响网站爬行和渲染的被阻止的资源。

粘贴图像0 61

查看原始HTML和渲染的HTML

如果你想比较原始HTML和呈现的HTML,以确定任何差异或确保重要内容位于DOM中,请转到“配置”→“蜘蛛”—>“高级”,并点击存储HTML &存储呈现的HTML。

粘贴图像0 109

在底部窗口中,您将能够看到原始的和呈现的HTML。这可以帮助识别有关爬虫程序如何呈现和查看内容的问题。

粘贴图像0 63

告诉我们你还发现了什么!

↑返回顶部

最后的评论

最后,我希望这篇指南能让你更好地了解尖叫蛙能为你做什么。它为我节省了无数的时间,所以我希望它也能帮助到你!

顺便说一下,我不是尖叫青蛙的下属;我只是觉得这是个很棒的工具。

还在为技术搜索引擎优化而烦恼吗?

查看我们的空缺职位


更多的搜索引擎优化教程和最新的数字营销更新,订阅Seer通讯:

订阅时事通讯

我们乐于帮助像您这样的营销人员。

注册我们的通讯,接收更新和更多信息: