“窗外没下雨”通过精心收集,向本站投稿了9篇争取蜘蛛爬行提高网站爬行效率,下面小编给大家整理后的争取蜘蛛爬行提高网站爬行效率,欢迎阅读!

争取蜘蛛爬行提高网站爬行效率

篇1:争取蜘蛛爬行提高网站爬行效率

站长朋友知道对于一些搜索引擎不能索引的文件或者网页,锚文本正好作为一个桥梁,搜索引擎蜘蛛通过所在页面的锚文本链接地址,爬向另外一个网页,这样搜索引擎就可以索引到所指页面的网页内容和文件了,加大彼此之间的联系,同时也加大了蜘蛛的访问速度,那么我们如何再次加强蜘蛛在网站的爬行呢,注意一下几点,

内容页

新的内容应尽量出现在蜘蛛频繁更新的地方。因此,内容页应按ID或发布时间排序。而每篇内容页应和其他页面有效链接。可以在内容结束后加入上一篇、下一篇窜连上下篇文章。同时可以增加相关阅读、推荐阅读等栏目,这样更有助于蜘蛛索引。

标签云

标签、标签云是提高聚合类内容可爬行性的有效途径。而标签云采用不同颜色、不同大小、不同粗细以区分不同用户关注度的内容。因该说无论从用户体验还是索引的主次都是有益的。但不应为追求标签云效果,而采用jquery等技术,这样就失去了标签云的SEO意义。

层次结构

要利于蜘蛛爬行,首先得有一个清晰的层次结构。树形结构是比较理想的网站结构,蜘蛛能够很好的理解并爬行。采用首页-索引页-内容页的形式有利于用户在最短的时间内找到需求的信息。而且由于相关性极强的内容在同一栏目下,提高了聚合度,这样更有利于蜘蛛的爬行整合。同时,树形结构应该遵循层数尽可能少的原则,

导航

网站导航是网站不可或缺的重要组成部分。采用统一的导航栏不仅有助于用户体验,更有助于蜘蛛识别。由于蜘蛛能有效识别并爬行css。因此,对于导航栏字体使用font-weight属性是有效的。但切勿因为追求效果而采用js、ajax、inframe、flash等蜘蛛无法有效爬行的技术。次导航同样可以使用font-weight属性表明重要性,而面包屑导航也是必不可少的,要注意尽量避免使用url链接,而更多采用锚文本链接。

Sitemap

Sitemap文件对于蜘蛛的索引是很重要的。Sitemap的制作不是本文讨论的重点。如果你的站点规模不是很大,请尽量采用.xml格式,并放置于根目录下。百度sitemap工具正在内测中,因此暂时无法提交sitemap文件,我们只能采用提交网页的方式,提交新的页面。

做网站最忌讳的是将网站单一的呈现给受众,有的网站做的太考虑人的感受,比如过分的添加FLASH或是图片,虽然讨好了用户,但这些蜘蛛都不买账,反而会让网站速度降下来,所以在网站首页要尽可能的精简,如有有必要的话可以利用nofollow屏蔽一下首页没必要的链接,为网站收录提高时间。当然这个时候同样要考虑结构的问题,虽说CSS+DIV为蜘蛛提供一个圆点,最大限度的为其提供搜索捷径,但是树形结构还是不可少的,我们可以将网站相关性内容整合在一个栏目之下,以首页-索引页-内容页的形式的形式展开,提高内容的相关性,这样就有利于蜘蛛的爬行整合。

篇2:蜘蛛爬行原理

seo技术网站优化少不了蜘蛛的爬行而蜘蛛的爬行原理,爬行习惯,从一个链接访问,到所有很多人认为的是搜索引擎的爬行,是越靠近左上角的链接权重越高,其实这个也有一定的误区,链接越靠前也算是蜘蛛越容易爬行,这是对的,但是在与网站的管理网站的分布,布局来说很多方面上没有做到这一点,其中最为流行的div+css是可以实现的,从右到左,从下到上的布局。这个观点也是很不错的,对与搜索引擎蜘蛛的爬行与抓取,习惯与设计都是有一定的优势吧。既然情况是如此的,你有没有注意到很多网站的布局确实没有的情况下你的网站又是什么样。

而蜘蛛对与新站老站的爬行习惯爬行的深度是不一样的,新站可以说爬行的非常浅,但是对于一个权重很高的网站爬行的深度抓取的信息越来越多,这对于新站竞争老站有一定的难度,

其中我们需要的是什么呢,在与一个网站的深度怎么改变呢,对于蜘蛛每次来爬行你的网站的时候其中他们的深度与内容都是一致的这回导致蜘蛛爬行的频率越来越低,权重也不会上去,你知道权重的提升也是蜘蛛爬行的次数。

如何改进,改进层次结构低层次,内容的改变,所以这一点需要我们网站的更新来完成,每次蜘蛛来网站的时候收录的情况爬行的内容是不一样的,文字的数量,文字的不同文章的增多,内容的丰富越多给你一定的权重。完成每一个页面都有一个较高的权重。

上面内容的整理和分析,内链和目录调整,达到收录率提升,也会蜘蛛更好的访问到你的网站。搜索引擎是人为的技术。我们也是需要的这些数据的分析,应能更好的分析数据,完成我们站长的需求,百度蜘蛛的再次爬行,可以促进你网站的价值关,一个网站的完成的网站需要做的就是这些。蜘蛛的爬行完全是需要新奇的东西,新奇的首页,蜘蛛才会经常来到你的网站,也会给你一定的排名。提高自己的执行力,站长了解的就是蜘蛛对于我们站长针对网站优化,页面的优化实现。

篇3:十分钟提升网站蜘蛛爬行的秘籍

大家好!我是一修!我在国外SEO论坛无意中看到了一篇SEO优化文章,简单的翻译了过来,希望对一些初入学习SEO的朋友能提供一些帮助! ...

大家好!我是一修!我在国外SEO论坛无意中看到了一篇SEO优化文章,简单的翻译了过来,希望对一些初入学习SEO的朋友能提供一些帮助!

1、经常规律性的更新文章

2、确保服务器工作正常

(这个也是很重要的 大家最好没事打开打开自己的站)

3、使页面尽量简洁,确保打开速度快

4、检查内部链接结构,去除死链接和重复链接

5、尽量多从正规和相关站点获得反向链接

6、用Google站长工具检查爬行速度

7、为站点制作网站地图,包括htm格式和xml格式

(这里我教大家一个小窍门 网站地图越小越好 尽量不要添置LOGO或者别的了)

8、确保服务器返回正确的数据包响应

9、为每个页面制作独立的标题和meta标签(关键字、描述)

10、监测Google的爬行记录(国内站长我们还是注重一下百度)

以上的10点内容比较常见,大家花个十分钟应该可以理解,我呢也只是做了一个相对较全的归类,

十分钟提升网站蜘蛛爬行的秘籍

有蜘蛛爬行方面的问题可以到百度搜索一些SEO论坛查看一下 或者来站长站查看!

厚诚集智 成长无限 www.51hlht.com

争取蜘蛛爬行提高网站爬行效率

篇4:WordPress搜索引擎蜘蛛爬行记录代码

写博客也有一段时间了,为什么搜索引擎迟迟不收录你的页面呢?想知道每天都有哪些蜘蛛“拜访”你的网站吗?作为一名wordpress用户,有必要知道每天都有哪些蜘蛛爬行过你的网站,以便于了解各搜索引擎蜘蛛爬行频率,对网站进行针对性的SEO优化,

其实很简单,只要添加以下代码,然后再调用文件代码就OK了,是不是很方便呢?那就开始行动吧。

之前我也找过几个蜘蛛爬行记录工具PHP版,结果都不尽人意。而且这些PHP程序大多要进行安装,还要将蜘蛛爬行记录添加到MYSQL中,未免太麻烦。那就寻找一个简易的蜘蛛爬行记录器吧~

googlebot

1.首先,在wordpress主题根目录建立一个robots.php文件,写入以下内容:

function get_naps_bot

{

$useragent = strtolower($_SERVER['HTTP_USER_AGENT']);

if (strpos($useragent, ’googlebot’) !== false){

return ’Googlebot’;

}

if (strpos($useragent, ’msnbot’) !== false){

return ’MSNbot’;

}

if (strpos($useragent, ’slurp’) !== false){

return ’Yahoobot’;

}

if (strpos($useragent, ’baiduspider’) !== false){

return ’Baiduspider’;

}

if (strpos($useragent, ’sohu-search’) !== false){

return ’Sohubot’;

}

if (strpos($useragent, ’lycos’) !== false){

return ’Lycos’;

}

if (strpos($useragent, ’robozilla’) !== false){

return ’Robozilla’;

}

return false;

}

function nowtime(){

$date=gmdate(”Y-n-j H:i:s”,time()+8*3600);

return $date;

}

$searchbot = get_naps_bot();

if ($searchbot) {

$tlc_thispage = addslashes($_SERVER['HTTP_USER_AGENT']);

$url=$_SERVER['HTTP_REFERER'];

$file=”robotslogs.txt”;

$time=nowtime();

$data=fopen($file,”a”);

fwrite($data,”Time:$time robot:$searchbot URL:$tlc_thispagen”);

fclose($data);

}

?>

将其上传于你的主题目录内,

2.在Footer.php或header.php的适当位置添加以下代码调用robots.php。

程序原理:通过对蜘蛛标识符(如Baiduspider、Googlebot)的判断,记录蜘蛛爬行时间,并生成日志文件robotslogs.txt于根目录。

程序缺点:无法记录蜘蛛爬行的页面,功能较为简单。

请注明:白开水的博客

篇5:蜘蛛爬行不顺畅 清理网站陷阱是关键

蜘蛛的爬行往往决定着网站的收录,因此在平时的优化工作中,我们都会比较关注iis日志,通过观察日志来获取蜘蛛爬行网站的动态,并通过分析蜘蛛动态来监测网站优化的进度,但是很多时候站长都会看到自己的iis日志显示蜘蛛的爬行十分不顺畅,尽管自认为网站优化做的很完美。这其中包含着哪些原因呢?

事出必有因,蜘蛛只是一个机器人,它由程序代码构成,必须遵循其规定去爬行网站,如果网站存在一些网站陷阱,则会让蜘蛛爬行变得不顺畅,从而引致一系列的问题。到底哪些网站陷阱成为了蜘蛛爬行的绊脚石?下面笔者就来简单谈谈吧。

【陷阱一】:网站地图不正确

网站地图是一个非常有用的网站工具,对于用户和蜘蛛来说,一副完整、正确的网站地图都能很好地识别整个网站的架构,从而更好地浏览和爬行网站。由于一些站长对于代码的不熟悉,以及对网站的架构不熟悉,就随便选了一个权威性不好的工具来制作了一副不完整或不正确的网站地图,最后的结果就是让蜘蛛爬行时陷入其中,最终“迷路”了。

##解决方法:选择一个权威性好的工具来制作网站地图,比如站长工具、百度站长平台工具等,如果自己对网站比较熟悉,最好能够自己手工制作,并亲身多次测试,保证好网站地图的正确性和完整性。

【陷阱二】:网站的死链接数量巨大

所谓的死链接就是就是返回代码为404的错误页面链接,这类链接通常产生于网站改版后、或者网站更换域名后。死链接的存在对于用户体验和蜘蛛爬行来说都是非常不好的。死链接无疑就是阻挡着蜘蛛的爬行,当蜘蛛接二连三地碰到这些不该出现的死链接时,就会产生对网站的不信任,最终会放弃爬行网站。

##解决办法:www.dnzg.cn

(1)提交死链接。利用百度站长平台的“死链提交”工具来提交网站死链,具体说明请参考百度站长工具,

(2)对死链接进行重定向或者删除,如果死链接的位置不是很重要,可以把其重定向到首页,如果位置比较重要,数量也比较多,就可以选择删除死链接,可以使用工具来删除。

【陷阱三】:网址包含参数过多

尽管百度优化指南官方表明,目前百度搜索机器人也能像谷歌机器人一样收录动态参数网站,但是静态化url的网站永远要比动态化url收录更有优势。因此,如果你的网站像下面的网址一样,那就可能会导致蜘蛛爬行不顺畅了:

##解决办法:在选择做站程序前,一定要考虑该程序是否支持网站url静态化,并且在日后维护中也要注意网站url是否真正做到静态化,尽量舍弃包含参数的动态网址的做法。

【陷阱四】:网站过多锚文本

网站锚文本过多,造成内链链轮。外部链轮相信大家都会认识,但是其实内部链接也是可以产生链轮的。很多站长为了提升关键词排名,不惜使用过多的锚文本,然后造成页面之间的链接轮回效应,最后也让蜘蛛走进了无底洞,无法走出来了。

##解决办法:清除过往的,带有链接交叉性的锚文本,并且尽量做到需要时才添加锚文本,滥用锚文本只会让百度蜘蛛更一步不认可你的网站。

百度搜索引擎蜘蛛永远只是一个程序机器人,它的智力永远比不上我们,但是我们还是应该尊重它,为它提供一个爬行顺畅的网站环境,这样才能确保我们的网站能够持续、健康地发展下去。本文由北京医院挂号网www.bjghjgw.com供稿

篇6:如何能做到使蜘蛛逆向爬行索引

首先,我们要来个免责声明-他们并不一定是必要的-但以防万一…但你必须注意的是,这些是一个概念化的东西,至少我是这样认为的,还没有进行实际的测试和实践证明,

蜘蛛的逆向爬行…至少我第一次起这个名字的时候我是这样想的。这种想法来源于很多的地方:

网站的页面的深度如果很高的话那对爬行和索引来说都是一个挑战,因为他们的结构很深,拥有大量的页面,会有爬行的障碍(例如那些大量基于参数的URL或者那些被认为没有什么价值的页面,这种情况会经常出现在一些电子商务的网站。)

或者一个网站希望能够尽可能的充分并迅速的被索引(也许一个网站添加了新的内容,它的URL就会发生戏剧化的改变,尽管301已经被定位了,或者这是一个新的站点)。

因此,怎样才能使网站能够被正常的爬行和索引?通常是通过以下的几种方式:

发现:搜索引擎蜘蛛会根据链接进入到你的网站

提交:一个站长会把站点和页面提交给搜索引擎

XML网站地图:一个站长给他们的网站创建一个XML网站地图,并通过搜索引擎使他们变得有效,或者就把它放在网站的根目录作为一个网站地图或者利用ROBOTS文件来进行自动搜索。

这些方法都是优点和缺点的,但是他们至少解决了如何让蜘蛛进入他们的站点,通过使用XML网站地图,可以帮助蜘蛛越过一些爬行的障碍。

无论是直接还是间接,主页被发现了。那么蜘蛛就会按照他们自己的路线进行爬行。从顶级的导航到第二层让后到子导航,爬行到顶级的分类页面,通过子分类的界面,然后到更深的产品和信息页面。反过来说,你想进行索引的这些页面同时占领了头部和长尾的搜索。这些也很有可能是产生交易或者是转化的页面。

蜘蛛来到你页面的频率是多少?它们一次性通常会爬多少页面?新的页面会多久才会被发现和抓取?相对而言旧的页面会多久被发现和抓取?本质上来说,应该平衡抓取,这就解释了为什么排除重复性内容的重要性。你不想心爱的蜘蛛把时间浪费在爬过和收录过的内容。

当你为一些大型的网站指出这些问题的话,你发现想让蜘蛛去爬行和喜欢的URL实在是多的让人觉得可怕,即使没有那些隐藏着的爬行障碍。请记住,甚至是XML网站地图,每个网站地图最多只能包括50000个URL,最少20个单独的网站地图的话加起来就会有1000000个页面,

要说的是,我要提醒大家这种情况并不适用于所有的网站和情况。这种“蜘蛛逆向爬行”的基础和使用XML网站地图是有些不同的。典型的XML网站地图策略是要提交每一个URL,就是希望每个页面都能被索引。这也许不是最好的策略,但是这是另外一个问题了。即使那样,这些策略往往会给首页过多的权重和优先权。

恰恰相反,我们应该把网站地图的重点放在一些低等级的页面上。通常都是单个的产品和信息页面。这种思想就是让蜘蛛去那些最深层最难爬的页面。

它们之后还会去哪儿呢?他们会按照蜘蛛做的那样做,开始爬行。想想这些深层次的页面。但愿他们内容丰富并且富有关键词。他们也许包括一些可以导航的元素,即使不是完全的高等级的导航,至少是一些分类导航。如果网站有类似的面包屑导航的话,我们可以直接喂给蜘蛛这些面包屑。

在这点上,我们应该更好的以更多的方式给蜘蛛展现我们的网站。这个观念也许并不是关于逆向爬行的,反而是关于让蜘蛛从两个底端开始爬行,这样的爬行最终也能到顶部的导航。

我们通常会假设蜘蛛会很自然的首先去找首页然后顺势往下爬遍整个网站。和那些多样化的产品等级的页面相比从主页到顶层页面有多少个唯一的URL?我的猜想是因为页面深度的不同,两个等级的页面的抓取数量是有很大的不同的。

正如我提到的,我认为这是一个低风险的路线。无论有没有xml网站地图,蜘蛛们都能找到页面的。他们会找到不在网站地图中的页面,因此即使是一个没有首页和顶级页面的网站地图,也不会遗漏掉这些页面。

在自然环境下,也许不会出现这些问题。蜘蛛会迅速爬过整个网站。一旦他们发现了链接他们就会追根究底。也许这些页面埋得太深了,他们有点儿不太喜欢。

无论如何,让这些网页被爬到和索引是很重要的,对于我的站来说这的确是一个艰难的过程。或许这只是一个时间问题。至少我要去尝试。一旦像我想象的那样整个网站的那个等级的页面都被建立了索引,我就可以继续并在XML网站地图中添加其他的URL,或者我可以做个实验,不把网站地图放在网站里。

那些神乎其神的问题是:

总体上说是不是更多的页面建立了索引?

是不会让那些深层页面更好更快的被建立索引?

是不是在短期内提高了索引率并让更多的页面被索引?

文章出处为www.leadseo.cn/seofuwu/seocehua/ 上海丽姿鸥, 出处!不胜感激!

篇7:搜索引擎蜘蛛爬行统计分析程序开发总结

一、搜索引擎蜘蛛爬行统计分析的必要性: 蜘蛛顺利爬行网页是网页被搜索引擎收录的前提条件,搜索引擎是否已爬行了网站,爬行了哪些...

一、搜索引擎蜘蛛爬行统计分析的必要性:

蜘蛛顺利爬行网页是网页被搜索引擎收录的前提条件,搜索引擎是否已爬行了网站,爬行了哪些页面以及返回哪些信息给蜘蛛,掌握了这些情况我们才能对网站进行有针对性的优化改良,因此查看蜘蛛爬行日志是一件非常重要但却非常痛苦的工作,尤其是SEOER及新站站长来说,比如从网上看到蜘蛛爬行某个页面后如果返回200 0 64 ,则表示此网页极有可能要被搜索引擎删除,HEAD 请求返回404也表示要删除网页,如果我们能根据日志及时发现此现象就能根据实际情况及时做出调整。又如,蜘蛛爬行返回的301,302重定向及404错误等信息,也是网站管理员需要关心的问题。因此可以看出分析蜘蛛爬行日志的必要性。

二、蜘蛛爬行统计的方法:

由于蜘蛛机器人在网站爬行时是不会爬行JS(多次爬行只执行0次或者一次),flash,img等标签的,因此,目前第三方统计软件 (如阿江、中国站长站、雅虎、google等统计系统)还无法统计到蜘蛛爬行记录。因此目前分析蜘蛛爬行主要通过以下方法: 1、利用PHP,ASP根据浏览器返回的USER_AGENT来动态进行跟踪记录,这样的确可以实现目的,但其缺点很明显:

a)加重服务器负担,对于内容多及权重高的网站,蜘蛛抓取是非常频繁的。在网页中插入的代码会额外加重服务器的负担。

b)由于搜索引擎相对来说比较喜欢静态页面,很多网站都利用CMS把内容生成静态文件,这样就无法统计了。湖南某seo公司介绍使用img标签或者script方式,即在静态文件中将统计脚本利用img或者script标签调用的方式,此方法经过我一个月的试验,无法实现,蜘蛛不抓取页面。

2、利用第三方日志分析工具:如linux下awstats及windows下的Webalizer,其缺点也很明显。比如如果您是虚拟主机用户的话,由于每天产生的日志非常多,每次分析时下载日志文件是一件非常痛苦的事。同时这些软件太专业了,不适合一般站长使用。

3、如果您有更好的蜘蛛爬行分析方法请您和广大站长一起分享。

三、专门针对搜索引擎蜘蛛爬行统计的日志分析工具开发总结:

1、 我们分析日志中需要关心蜘蛛爬行相关资料:

a)蜘蛛爬行日期:根据此来查找蜘蛛爬行的规律。

b)蜘蛛IP地址:不同来源的IP地址的蜘蛛的作用是不同,可以结合爬行日期及下面要讲到的请求方式HEAD,GET来进行更详细的规律总结。

c)请求方式:主要有HEAD和GET方式,其作用是不同的。HEAD方式一般是上次蜘蛛来访问时发生一次或多次404错误,因此蜘蛛发送HEAD请求确认此网页是否存在,一旦发送此请求如果返回依然是404的话,那么您的网页就要被搜索引擎从数据库中删除了。GET方式大家都很明白就不说明了。

d)爬行页面:蜘蛛爬行了哪些页面,

e)状态码:服务器给蜘蛛返回的状态码,我们一般关心的是200,301,304,302,404,尤其是404及301,302。404表示死链,极大影响网站优化,301,302目前还是不能被搜索引擎友好识别,有作弊的嫌疑。

f)流量:在落伍上看到很多个人站长反应自己的服务器被蜘蛛拖跨,虽然这种说法有点夸张,但对服务器产生的压力绝对不容忽视,尤其是某些太疯狂的蜘蛛,每天产生很大的流量,因此我们需要统计出这些蜘蛛的相关信息,对我们不关系的搜索引擎蜘蛛可以在robots.txt中进行限制,以节约我们宝贵的服务器资源。

综合以上考虑,使用WEB语言开发一套一个使用简单,但功能专业的蜘蛛爬行统计程序放在自己的WEB空间上。这样可以随时随地检查蜘蛛爬行日志是非常必须的,并且可以避免下载日志的痛苦(当然,如果您使用的是独立服务器的话且你能熟练使用那些专业的日志分析工具就不提了),如果能实现以上功能的同时我们在结合一些第三方的统计工具,那么我们小站长就完全可以撇开那些专业的日志分析软件。

2、开发语言的选择:由于这套分析程序是放在WEB服务器上的,因此考虑移植性是非常重要的,在WEB语言中,主要有JSP,php,asp,asp.net语言,JSP一般服务器是不支持的,ASP及.net在LINUX平台下不支持,唯一可以选择的是PHP语言。一般的windows及linux主机都会支持。其可移植性比较好。

3、程序扩展性:毕竟一个人的能力无法满足大家不同的需求,因此程序在设计时将数据分析和表现进行隔离,我们将蜘蛛数据分析模块独立出一个只有7行代码的文件,可以方便的根据服务器日志的格式重写,因此您如果更换空间或者日志格式发生变化,您只需要根据我们提供的接口标准对分析模块重写即可,这并不需要多么高的程序开发水平。而不需要动其他任何文件,或者您将您的日志样本提供给我们,我们为您重写.程序还可以自定义统计蜘蛛类型,这样可以提高分析速度,远程分析日志等。

4、难点及局限性:在开发过程中遇到一个非常重要的问题,就是分析速度,WEB日志动辙几十上百兆甚至G级,因此对于使用PHP语言来分析,既要考虑服务器承受能力,又要考虑分析速度,否则很容易导致超时现象,因此一套高效的算法是非常重要的,同时由于一般的日志记录条数都很多,我们放弃使用数据库,因为几十万条数据的插入及百万级的数据查询是相当痛苦的事情,对服务器的压力太大,会把你的服务器瞬时CPU达到峰值,而且这些数据并不需要长期保存,毕竟要考虑大多数的虚拟主机站长.同时为了满足部分站长的需求,程序将分析出来的蜘蛛日志按一定的格式写入文本文件,您可以自己用任何一种语言编写一段简单的读文件,插入数据库的代码将日志长期保存。通过不同的算法比较,目前找到的最好的算法分析速度如下:

本地分析: P4 1.7G+512M内存+WinXp环境(笔记本):

VPS:384M内存+ Linux:

远程分析:即日志和分析系统不在同一台机器上,远程分析的速度主要取决于两个网络之间的速度。

远程环境(日志存放位置):VPS:384M内存+ Linux,10M带宽共享

本地环境(分析系统位置):P4 1.7G+512M内存+WinXp环境(笔记本),2M ADSL拨号网络

由此可见,远程分析速度只有本地分析的1/10,因此还是建议将系统上传到WEB服务器上,也可以节约您空间宝贵的流量。

篇8:搜索引擎爬虫蜘蛛爬行统计分析程序开发总结

一、搜索引擎蜘蛛爬行统计分析的必要性: 蜘蛛顺利爬行网页是网页被搜索引擎收录的前提条件,搜索引擎是否已爬行了网站,爬行了哪些...

一、搜索引擎蜘蛛爬行统计分析的必要性:

蜘蛛顺利爬行网页是网页被搜索引擎收录的前提条件,搜索引擎是否已爬行了网站,爬行了哪些页面以及返回哪些信息给蜘蛛,掌握了这些情况我们才能对网站进行有针对性的优化改良,因此查看蜘蛛爬行日志是一件非常重要但却非常痛苦的工作,尤其是SEOER及新站站长来说,比如从网上看到蜘蛛爬行某个页面后如果返回200 0 64 ,则表示此网页极有可能要被搜索引擎删除,HEAD 请求返回404也表示要删除网页,如果我们能根据日志及时发现此现象就能根据实际情况及时做出调整。又如,蜘蛛爬行返回的301,302重定向及404错误等信息,也是网站管理员需要关心的问题。因此可以看出分析蜘蛛爬行日志的必要性。

二、蜘蛛爬行统计的方法:

由于蜘蛛机器人在网站爬行时是不会爬行JS(多次爬行只执行0次或者一次),flash,img等标签的,因此,目前第三方统计软件 (如阿江、中国站长站、雅虎、google等统计系统)还无法统计到蜘蛛爬行记录。因此目前分析蜘蛛爬行主要通过以下方法: 1、利用PHP,ASP根据浏览器返回的USER_AGENT来动态进行跟踪记录,这样的确可以实现目的,但其缺点很明显:

a)加重服务器负担,对于内容多及权重高的网站,蜘蛛抓取是非常频繁的。在网页中插入的代码会额外加重服务器的负担。

b)由于搜索引擎相对来说比较喜欢静态页面,很多网站都利用CMS把内容生成静态文件,这样就无法统计了。湖南某seo公司介绍使用img标签或者script方式,即在静态文件中将统计脚本利用img或者script标签调用的方式,此方法经过我一个月的试验,无法实现,蜘蛛不抓取页面。

2、利用第三方日志分析工具:如linux下awstats及windows下的Webalizer,其缺点也很明显。比如如果您是虚拟主机用户的话,由于每天产生的日志非常多,每次分析时下载日志文件是一件非常痛苦的事。同时这些软件太专业了,不适合一般站长使用。

3、如果您有更好的蜘蛛爬行分析方法请您和广大站长一起分享。

三、专门针对搜索引擎蜘蛛爬行统计的日志分析工具开发总结:

1、 我们分析日志中需要关心蜘蛛爬行相关资料:

a)蜘蛛爬行日期:根据此来查找蜘蛛爬行的规律。

b)蜘蛛IP地址:不同来源的IP地址的蜘蛛的作用是不同,可以结合爬行日期及下面要讲到的请求方式HEAD,GET来进行更详细的规律总结。

c)请求方式:主要有HEAD和GET方式,其作用是不同的。HEAD方式一般是上次蜘蛛来访问时发生一次或多次404错误,因此蜘蛛发送HEAD请求确认此网页是否存在,一旦发送此请求如果返回依然是404的话,那么您的网页就要被搜索引擎从数据库中删除了。GET方式大家都很明白就不说明了。

d)爬行页面:蜘蛛爬行了哪些页面。

e)状态码:服务器给蜘蛛返回的状态码,我们一般关心的是200,301,304,302,404,尤其是404及301,302,

404表示死链,极大影响网站优化,301,302目前还是不能被搜索引擎友好识别,有作弊的嫌疑。

f)流量:在落伍上看到很多个人站长反应自己的服务器被蜘蛛拖跨,虽然这种说法有点夸张,但对服务器产生的压力绝对不容忽视,尤其是某些太疯狂的蜘蛛,每天产生很大的流量,因此我们需要统计出这些蜘蛛的相关信息,对我们不关系的搜索引擎蜘蛛可以在robots.txt中进行限制,以节约我们宝贵的服务器资源。

综合以上考虑,使用WEB语言开发一套一个使用简单,但功能专业的蜘蛛爬行统计程序放在自己的WEB空间上。这样可以随时随地检查蜘蛛爬行日志是非常必须的,并且可以避免下载日志的痛苦(当然,如果您使用的是独立服务器的话且你能熟练使用那些专业的日志分析工具就不提了),如果能实现以上功能的同时我们在结合一些第三方的统计工具,那么我们小站长就完全可以撇开那些专业的日志分析软件。

2、开发语言的选择:由于这套分析程序是放在WEB服务器上的,因此考虑移植性是非常重要的,在WEB语言中,主要有JSP,php,asp,asp.net语言,JSP一般服务器是不支持的,ASP及.net在LINUX平台下不支持,唯一可以选择的是PHP语言。一般的windows及linux主机都会支持。其可移植性比较好。

3、程序扩展性:毕竟一个人的能力无法满足大家不同的需求,因此程序在设计时将数据分析和表现进行隔离,我们将蜘蛛数据分析模块独立出一个只有7行代码的文件,可以方便的根据服务器日志的格式重写,因此您如果更换空间或者日志格式发生变化,您只需要根据我们提供的接口标准对分析模块重写即可,这并不需要多么高的程序开发水平。而不需要动其他任何文件,或者您将您的日志样本提供给我们,我们为您重写.程序还可以自定义统计蜘蛛类型,这样可以提高分析速度,远程分析日志等。

4、难点及局限性:在开发过程中遇到一个非常重要的问题,就是分析速度,WEB日志动辙几十上百兆甚至G级,因此对于使用PHP语言来分析,既要考虑服务器承受能力,又要考虑分析速度,否则很容易导致超时现象,因此一套高效的算法是非常重要的,同时由于一般的日志记录条数都很多,我们放弃使用数据库,因为几十万条数据的插入及百万级的数据查询是相当痛苦的事情,对服务器的压力太大,会把你的服务器瞬时CPU达到峰值,而且这些数据并不需要长期保存,毕竟要考虑大多数的虚拟主机站长.同时为了满足部分站长的需求,程序将分析出来的蜘蛛日志按一定的格式写入文本文件,您可以自己用任何一种语言编写一段简单的读文件,插入数据库的代码将日志长期保存。通过不同的算法比较,目前找到的最好的算法分析速度如下:

本地分析: P4 1.7G+512M内存+WinXp环境(笔记本):

VPS:384M内存

远程分析:即日志和分析系统不在同一台机器上,远程分析的速度主要取决于两个网络之间的速度。

远程环境(日志存放位置):VPS:384M内存+ Linux,10M带宽共享

本地环境(分析系统位置):P4 1.7G+512M内存+WinXp环境(笔记本),2M ADSL拨号网络

由此可见,远程分析速度只有本地分析的1/10,因此还是建议将系统上传到WEB服务器上,也可以节约您空间宝贵的流量。

以上是我在开发这套程序的总结,程序目前已完成核心的分析功能及显示功能

篇9:从日志中,了解搜索引擎蜘蛛爬行经过

网站能在搜索引擎被搜到,归功于搜索引擎蜘蛛抓取的功劳,权重高,更新快的网站,搜索引擎蜘蛛会经常爬行,抓取网站最新数据,经过搜索引擎数据整理后,在搜索引擎上就能搜索到网站的网页,为了更好的SEO优化网站,了解搜索引擎蜘蛛爬行规则也是相当重要的,怎么才能知道搜索引擎蜘蛛在爬行网站时间、爬行网页、爬行反映呢,就要查看网站iis日志文件, iis默认的日志文件在C:WINDOWSsystem32LogFiles中,从查看日志中,就可以了解搜索引擎蜘蛛爬行经过,如:

2008-08-19 00:09:12 W3SVC962713505 203.171.226.111 GET / - 80 - 61.135.168.39 Baiduspider+

(+www.baidu.com/search/spider.htm) 200 0 64

1、203.171.226.111就是搜索引擎蜘蛛防问的网站ip,

2、61.135.168.39 Baiduspider代表,百度搜索引擎蜘蛛的ip是61.135.168.39,

3、代码中的/ 就代表搜索引擎蜘蛛防问的网页

4、2008-08-19 00:09:12代表搜索引擎蜘蛛爬行的日期与时间

5、代码中的200就代表搜索引擎蜘蛛爬行后返回代码代表,代码中可以了解蜘蛛爬行后的反映,代码如下:

6、W3SVC962713505代表网站日志所在的文件夹

2xx 成功

200 正常;请求已完成,

201 正常;紧接 POST 命令。

202 正常;已接受用于处理,但处理尚未完成。

203 正常;部分信息 — 返回的信息只是一部分。

204 正常;无响应 — 已接收请求,但不存在要回送的信息,

3xx 重定向

301 已移动 — 请求的数据具有新的位置且更改是永久的。

302 已找到 — 请求的数据临时具有不同 URI。

303 请参阅其它 — 可在另一 URI 下找到对请求的响应,且应使用 GET 方法检索此响应。

304 未修改 — 未按预期修改文档。

305 使用代理 — 必须通过位置字段中提供的代理来访问请求的资源。

306 未使用 — 不再使用;保留此代码以便将来使用。

4xx 客户机中出现的错误

400 错误请求 — 请求中有语法问题,或不能满足请求。

401 未授权 — 未授权客户机访问数据。

402 需要付款 — 表示计费系统已有效。

403 禁止 — 即使有授权也不需要访问。

404 找不到 — 服务器找不到给定的资源;文档不存在。

407 代理认证请求 — 客户机首先必须使用代理认证自身。

410 请求的网页不存在(永久);

415 介质类型不受支持 — 服务器拒绝服务请求,因为不支持请求实体的格式。

5xx 服务器中出现的错误

500 内部错误 — 因为意外情况,服务器不能完成请求。

501 未执行 — 服务器不支持请求的工具。

502 错误网关 — 服务器接收到来自上游服务器的无效响应。

503 无法获得服务 — 由于临时过载或维护,服务器无法处理请求。

阅读剩余 0%
本站所有文章资讯、展示的图片素材等内容均为注册用户上传(部分报媒/平媒内容转载自网络合作媒体),仅供学习参考。 用户通过本站上传、发布的任何内容的知识产权归属用户或原始著作权人所有。如有侵犯您的版权,请联系我们反馈本站将在三个工作日内改正。