更多



Bloghuman.com首页被Google删除后的分析及处理措施 晴

郝聪 , 2007/06/25 17:08 , 搜索引擎优化(SEO) » SEO案例 , 评论(21) , 阅读(23881) , Via 本站原创 | |

前段时间,博客首页被Google删除,我写了文章“Google为什么要删除bloghuman.com的首页?”介绍了相关情况;今天我将写出比较详细的分析过程以及想到的解决方式。

一般而言,一个网站或博客首页不能出现在Google索引库的情况并不多见,常见的问题都集中在内页不被抓取或收录,而主页是应该最先被收录。所以,老黑SEO博客遇到的是一个非常棘手的问题。这个问题可能涉及到Google可接受的优化限度,不过,要先声明的是黑色梦中的SEO博客没有主动作弊意识以及行为。

首页,我排除了以下情况:

1、首页导出链接严重不合格(面临的将是全站性的收录问题)
老黑的SEO博客首页所有导出链接我挨个不差的在Google上进行了仔细检查,均以被Google收录,只有http://blogs.msdn.com/livesearch/在Google上被列为补充材料;在我理解,一个网站的导出链接质量可能参差不齐,但只要不指向作弊站点就可以;首页提供给Google的链接都是经过个人严格检查和考究过的,内容质量高而且具有相关性,因此,这肯定不是删除博客首页的原因。

2、站内分类快速导航链接
Bo-blog有一个插件,可以实现在文章内容附近插入自定义代码;考虑到用户看完文章或评论即很明显的看到指向博客分类的链接,于是在文章下方、评论最上方增加了几个经常被点击的分类名。

目前已去掉站内分类快速导航链接,个人认为这都是小问题,不应该也不会成为被删的理由。

3、博客首页

那可能导致这种情况的原因呢,我想到了以下几种可能:

1、首页关键词密度过高,超出算法接受的限度
以前首页关键词密度的确比较高,记得不错的话,密度达到了8.3%,很多人一般认为适合的密度是4%-8%;
关于关键词密度计算,黑色梦中个人认为,文本链接中出现的关键词、TITLE、META标签中出现的关键词均是不算是当前网页的关键词的,实际情况中,文章中出现关键词“SEO”也是不可避免的,我从来不会因为考虑关键词密度而限制文字的表达。
当然,我也接受了小鹏的建议,取消了大量我认为比较重要的置顶文章,刻意的减少了主关键词的出现次数,目前的密度是:3.4%,仍在观察中。

2、首页feed页同时存在,形成复制网页
博客首页与feed同时被搜索引擎抓取并索引有问题吗?(目前首页和feed.php页均未被收录)
从内容角度讲,首页与feed页的确具有相似性,区别在于feed列出的是博客基本信息以及按时间倒序排列的文章信息,我设置的是输出100篇文章摘要,feed以文章信息为核心,但是首页不是,首页是进入网络的入口,两者侧重点不同,同时存在是没有原则性问题的。

3、站内存在大量复制网页
昨天看到Sheawey在其blog中写有文章:Google删除bloghuman.com的原因分析。虚心拜读后,基本认为作者Sheawey分析被删的主要原因在于复制网页。

是否是复制网页存在,目前还无法下结论,我争取把掌握的情况列举全面一些,这样对于分析会更加有利。

谈到黑色梦中SEO博客的大量补充材料网页,偶本人也sleepy,坦然笑对这个话题吧。
Google一共收录了Bloghuman.com1910个网页,但是,其中补充材料达到了753个,补充材料网页比例高达39.4%,这对于一个搞SEO研究的人来说是不可以接受的unhappy

之所以会出现如此众多的补充材料网页,主要原因是复制网页的出现,而复制网页是由于URL重写规则反复变动造成的。这的确是个教训,在网站大部分页面被收录而且网页URL已经定型的阶段,随意更新URL绝对不是一个好的决定。

URL重写规则变动原因:
Bo-blog的2.0.3版本完善了基于apache的重写规则,在.htaccess文件中对分类页、归档页、tag页的url也进行了重写,这个举动本身是好的,bo-blog产品也在不断改进和完善;当时为了体验下全站静态化的快感,很快就尝试了,当然,由于bloghuman.com的权重比较高,很多网页很快就被手略,但不幸的是:后来发现这种tag重写出现严重问题,于是只好更改成基于php的重写机制,但由于忘记删除.htaccess里的规则语句,导致静态URL同样可以访问。

PS:Bo-blog官方目前正在开发新版2.1,从看到的情况可以断定,新版将支持自定义文章URL,只能说这个blog将有些在SEO里非常重要的东西考虑放在后面来完善。。。所以,对于Bo-blog的使用者,一定要注意这个问题,结合自身情况来设置博客。

4、大量的隐藏文字及链接
黑色梦中做按照互联网的规则来做SEO,对SEO作弊不感兴趣,也不想去测试Google、Baidu可接受的底线。
抛出这点,主要思路是源于首页置顶的大量文章(当时应该达到12篇吧),为什么会是隐藏文字及链接呢?因为每篇置顶文章的摘要内容都是处在一个隐藏的层里,看看源代码:
<div id="top_224" style="display: none;">


如果置顶的文章太多了,包含的隐藏信息就足够多,当这些内容的比重高于正常显示内容的时候,可能会触发某个规避体系,被认为是有作弊行为。


思考了以上问题后,我的处理措施:
1、在robots.txt文件中加入限制蜘蛛爬行产生补充材料网页的语句

Disallow: /tag/
Disallow: /index?go=archive&
Disallow: /save?
Disallow: /read?
Disallow: /feed?
Disallow: /read.php/


2、修改.htaccess文件
将除博客文章内容页之外的其他任何重写规则语句全部去掉,回归SEO博客URL的最初面貌
去掉如下代码:
RewriteRule ^index_([0-9]+)_([0-9]+).htm$ index.php?mode=$1&page=$2
RewriteRule ^star_([0-9]+)_([0-9]+).htm$ star.php?mode=$1&page=$2
RewriteRule ^category_([0-9]+).htm$ index.php?go=category_$1
RewriteRule ^category_([0-9]+)_([0-9]+)_([0-9]+).htm$ index.php?go=category_$1&mode=$2&page=$3
RewriteRule ^archive_([0-9]+)_([0-9]+).htm$ index.php?go=archive&cm=$1&cy=$2
RewriteRule ^archive_([0-9]+)_([0-9]+)_([0-9]+)_([0-9]+).htm$ index.php?go=archive&cm=$1&cy=$2&mode=$3&page=$4
RewriteRule ^showday_([0-9]+)_([0-9]+)_([0-9]+).htm$ index.php?go=showday_$1-$2-$3
RewriteRule ^showday_([0-9]+)_([0-9]+)_([0-9]+)_([0-9]+)_([0-9]+).htm$ index.php?go=showday_$1-$2-$3&mode=$4&page=$5


3、首页只保留4篇置顶文章


我一直在想分析原有和想补救措施,当然,我还有很多疑问,譬如:

(1)、在Google网站管理员中心:

点击在新窗口中浏览此图片

Googlebot 最终在 2007-2-14 成功访问了您的主页。

根据以上,Google最后一次成功抓取首页是在2007-2-14日,而Bloghuman.com首页是5月份从索引库中消失的,莫非首页被删除是由一个长期不友好的行为导致的?如果是这样的话,又可以排查一些因素。


点击在新窗口中浏览此图片

热门关键词"SEO"平均最前排名第5名
所有数据为过去 7 天的平均值
莫非Google网站管理员中心也存在不同的更新周期吗?


还有,为什么以前向Google提交成功的sitemap.xml文件现在一直报错,重新提交还是错误;为什么我手工做的sitemap.html在网页底部加了链接很长时间了,到现在一直未被收录;在复制网页现象出现前,很多关键词在Google排名非常好,而现在却大不如以前,包括我的原创文章中体现的关键词"SEO项目"。。。Google,这个惩罚太严重了吧,而我却还没有彻底搞清楚缘由!unhappy

最后编辑: 郝聪 编辑于2008/04/06 19:25
qpyx456com Email
2012/01/20 13:55
好的,真长见识了,说得很有道理
zmkdjtiio60 Email
2011/07/05 08:55
相关的主题文章:
一品小说
2008/08/20 10:06
http://www.yipinxs.cn
支持一下
杰伦电影网
2008/05/14 16:10
WWW.TVJAY.CN
杰伦电影网
bear
2008/05/14 00:42
顶一下,呵呵

http://blbear.com
google
2008/05/12 13:04
砍你需要理由吗,店是我开的,爱怎样怎样。。
李凯 Email
2008/03/31 08:26
有点像ZAC的那篇文章,SEO需要细致仔细的分析,
哎,还有距离啊

学习了
eeyye
2008/03/30 00:39
zan值得学习@!!
小白
2008/03/13 14:35
支持  老黑      
http://www.xm10001.net


lailai
dingding
2008/03/02 00:56
恩,有道理
leafor
2008/02/24 17:28
恩,不错,好东西,学习了。
demoseo
2008/02/24 03:17
学习中,先收藏下来了。
男人加油站 Email
2007/09/25 13:52
仔细的学习,仔细的研读,

唉,不想搞技术,现在换了个站长,却更是技术

努力ing!
guest
2007/09/20 15:32
祝贺你一下!呵呵,````不是很懂啊~
不过,希望公司网站  http://www.glitter-powder.com glitter powder能排上去哦!
Barry Email
2007/08/28 07:52
Very interesting information.  Thanks.
深蓝
2007/08/10 17:41
谢谢
ning
2007/08/10 15:29
收录才4个月,pr就升到了4,确实厉害啊。
sdff
2007/06/30 12:42
来看一下你所写,欢迎回访
(若能回访请留下博客地址,不胜感激)
听景777-Blog
地址1 http://www.xsblog.com/u/natinne2/
地址2 takepul.googlepages.com/2.htm
tingjing777@gmail.com
Alan Email
2007/06/30 03:15
老兄 我来了

一些个人建议仅供参考:
1. 更换blog系统,研究了研究你现在的blog的代码,不够成熟,很多不合理的地方和bugs,看了代码,总之感觉-乱。建议 Wordpress (转换工程可能有点费时,短期内效果可能不好,但是长远的好处一定有)

2. 取消置顶文章,如果一定要那些重要的文章醒目,建议改用站内文字链接形式放在靠顶部。比如开个区叫“热门文章”

3. 到Google Webmaster Tools里 'Submit a reconsideration request '

4. 首页内容太多,太长。

5. 侧边栏内容太多,‘最新评论’ ‘最新留言’ 没有必要放上去
黑色梦中 回复于 2007/08/10 17:44
亦????????!!!!!!!!
怎么以前没有看到你这个评论。。。汗一把。
更换BLOG系统对我来说太过"奢侈“了,我已经经受不起平台的更迭,仅仅是重新规则的改变,就让BLOG陷入了困境;
置顶文章去掉了一些,以前有个网友提出过这个建议,现在已实施;
我曾经安装过一个”热门文章"插件,但鉴于是JS调用,因此放弃了;
我通过robots.txt来限制的部分URL的爬取,同时,在TOOLS里提交了些废除的URL;
感觉用户还是需要最新评论的,环境威力法则啊
小皮 Email
2007/06/27 21:43
meta 这样使用的确也会带来补充材料。尤其是description

如果没有确切的description,不使用或许是比较好的处理方法。
黑色梦中 回复于 2007/06/28 08:57
谢谢提醒。这点我考虑的不多
分页: 1/2 第一页 1 2 下页 最后页
发表评论

昵称

网址

电邮

打开HTML 打开UBB 打开表情 隐藏 记住我 [登入] [注册]