SEO中文意思是搜索引擎优化,SEO英文全称为Search Engine Optimization。搜索引擎优化(SEO)建立在用户搜索体验为中心的基础之上,通过提高网页级别、建立合理且顺畅的网站链接结构、丰富网站内容及展现形式,使网站自身结构设计、网页代码适合搜索引擎的信息抓取并对搜索引擎具备友好性,进而在搜索结果上获得较高的排序权重。搜索引擎优化(SEO)贯穿于网站策划、建设、运营、推广全过程,通过制定和执行有针对性的网站优化策略,依靠搜索引擎平台为企业引入目标用户,是企业网站、商业网站开展网络营销推广的重要方式。
网站优化与搜索引擎优化是不同的两个概念,两者之间是包涵关系;网站优化包括网站搜索引擎优化、网络环境优化和用户体验优化。网站优化为企业网络营销策略的制定和实施提供保障。
郝聪[黑色梦中]:网络营销探索者与实践者,曾为多家商业网站提供过网站优化服务。研究:搜索引擎优化(SEO)技术、用户体验(UE)、网络营销、搜索引擎算法、数据分析与挖掘;思考:SEO应用模式与电子商务运营。博客原创文章欢迎转载,转载时请注明本人并以链接形式标注此博客。
Google让蜘蛛自动填表提交 以抓取更多网页
[
2008/04/14 09:16 | by 黑色梦中 ]
2008/04/14 09:16 | by 黑色梦中 ]
据国外媒体报道:美国搜索巨头谷歌公司最近开始在网页抓取蜘蛛中实施一项新技术:他们可以让蜘蛛自动填写某些网页中的表格,并且自动提交到服务器上,对反馈页面进行抓取,从而获取更多有关这个网站的详细信息。
搜索引擎蜘蛛程序名称大全
[
2007/01/10 09:09 | by 黑色梦中 ]
2007/01/10 09:09 | by 黑色梦中 ]
搜索引擎爬行抓取蜘蛛(机器人)程序HTTP头用户代理名称列表大全
Search engine spider(bot) id list
Search engine spider(bot) id list
以下提供给大家的是PHP版的捕捉搜索引擎蜘蛛爬行的代码。我们可以通过生成的文本文件查看每天都有哪几种搜索引擎蜘蛛爬行站点以及爬行频率,便于大家了解蜘蛛动向。
但是,从SEO工具需求角度来说,这段代码实现的功能还是很有局限性,从我个人需求而言,我希望能体现更多的信息,比如:蜘蛛爬行的页面URL、返回的状态码、每日爬行持续多长时间等等,甚至可以汇总于数据库中便于随时查询。因此,强烈呼吁编程高手开发数据库版的捕捉蜘蛛的程序。
但是,从SEO工具需求角度来说,这段代码实现的功能还是很有局限性,从我个人需求而言,我希望能体现更多的信息,比如:蜘蛛爬行的页面URL、返回的状态码、每日爬行持续多长时间等等,甚至可以汇总于数据库中便于随时查询。因此,强烈呼吁编程高手开发数据库版的捕捉蜘蛛的程序。
雅虎招聘“蜘蛛福利专员”
[
2006/09/07 15:33 | by 黑色梦中 ]
2006/09/07 15:33 | by 黑色梦中 ]
请注意,这是"雅虎",不是"Yahoo!",它们之间的区别相信大陆地区的读者们早已有深刻体会。另外,这也与"蜘蛛侠"完全无关,因为这里的"蜘蛛"指的是Yahoo!搜索引擎的爬虫即"Spider",类似于Googlebot。
继早前Google决定亲自讲授SEO课程后,今天雅虎搜索日志里登出一则很有趣的招聘启事,即雅虎也决定公开招聘SEO专家,只不过雅虎把这个职位叫做"蜘蛛福利专员",非常有意思。
雅虎希望应聘者:是一名搜索引擎的重度使用者,了解世界主流"蜘蛛"种群的特性,了解它们的生活习惯和在网上的活动特征。你将在雅虎搜索引擎专家们指导下优化雅虎的产品,让它们和蜘蛛和谐相处,形成良性的生物链,互相促进和发展。
同时,雅虎认为"SEO是和蜘蛛的友谊和战斗"。这句话说出了SEO与搜索引擎之间的关系,既是友也是敌。运用得当,对于网站和搜索引擎都是有利的;反之则有害。
读者"an songsan"在邮件里也发表了他自己对于SEO与搜索引擎之间的关系的看法:
"google要亲自教授如何SEO,yahoo要找SEOer,这个世界变得越来越好了(...)世界在变,搜索引擎在变,网站优化不是一个关键词做到位了,就高兴了。最本质的是你的流量和业务量要提高。(...)半年时间,一个3个人的公司经过网站优化后发展到一个50多人的公司,这就是网站优化的力量。电话接都接不过来,再也不用业务员了,这就是搜索引擎时代。我相信再不久的将来,各大搜索引擎也会推出网站优化学习栏目,因为搜索引擎优化可以提高网民搜索引擎体验,更好的促进搜索引擎与搜索者的良性关系。有人曾说搜索引擎与网站优化人员关系是死对头,因为他们觉得网站优化后的网站就不用做关键词广告了,本人认为搜索和关键词广告本来就应该是分开的,这一点google做的好。如今这种说法可不成立了,至少google和yahoo不反对网站优化了。这能不是好事吗。"
Google和Yahoo!等搜索引擎一直以来并非反对网站优化,Google和Yahoo!官方早就有网站优化指南,目的就是想网站管理员能正确地进行SEO。但很可惜的是,很多网站都错误地理解了SEO的初衷,使用不正当的手法,给SEO这个词添上了贬义的色彩。身为站长,从长远利益考虑,任何网站管理员都不应该与搜索引擎作对,因为它是网站的朋友,而不是敌人。
最后,雅虎给出的这张图很生动:
继早前Google决定亲自讲授SEO课程后,今天雅虎搜索日志里登出一则很有趣的招聘启事,即雅虎也决定公开招聘SEO专家,只不过雅虎把这个职位叫做"蜘蛛福利专员",非常有意思。
雅虎希望应聘者:是一名搜索引擎的重度使用者,了解世界主流"蜘蛛"种群的特性,了解它们的生活习惯和在网上的活动特征。你将在雅虎搜索引擎专家们指导下优化雅虎的产品,让它们和蜘蛛和谐相处,形成良性的生物链,互相促进和发展。
同时,雅虎认为"SEO是和蜘蛛的友谊和战斗"。这句话说出了SEO与搜索引擎之间的关系,既是友也是敌。运用得当,对于网站和搜索引擎都是有利的;反之则有害。
读者"an songsan"在邮件里也发表了他自己对于SEO与搜索引擎之间的关系的看法:
"google要亲自教授如何SEO,yahoo要找SEOer,这个世界变得越来越好了(...)世界在变,搜索引擎在变,网站优化不是一个关键词做到位了,就高兴了。最本质的是你的流量和业务量要提高。(...)半年时间,一个3个人的公司经过网站优化后发展到一个50多人的公司,这就是网站优化的力量。电话接都接不过来,再也不用业务员了,这就是搜索引擎时代。我相信再不久的将来,各大搜索引擎也会推出网站优化学习栏目,因为搜索引擎优化可以提高网民搜索引擎体验,更好的促进搜索引擎与搜索者的良性关系。有人曾说搜索引擎与网站优化人员关系是死对头,因为他们觉得网站优化后的网站就不用做关键词广告了,本人认为搜索和关键词广告本来就应该是分开的,这一点google做的好。如今这种说法可不成立了,至少google和yahoo不反对网站优化了。这能不是好事吗。"
Google和Yahoo!等搜索引擎一直以来并非反对网站优化,Google和Yahoo!官方早就有网站优化指南,目的就是想网站管理员能正确地进行SEO。但很可惜的是,很多网站都错误地理解了SEO的初衷,使用不正当的手法,给SEO这个词添上了贬义的色彩。身为站长,从长远利益考虑,任何网站管理员都不应该与搜索引擎作对,因为它是网站的朋友,而不是敌人。
最后,雅虎给出的这张图很生动:
通过HTTP状态代码查看搜索引擎蜘蛛如何爬行你的网站
[
2006/08/30 21:23 | by 黑色梦中 ]
2006/08/30 21:23 | by 黑色梦中 ]
所有 HTTP 状态代码及其定义。
代码 指示
2xx 成功
200 正常;请求已完成。
201 正常;紧接 POST 命令。
202 正常;已接受用于处理,但处理尚未完成。
203 正常;部分信息 — 返回的信息只是一部分。
204 正常;无响应 — 已接收请求,但不存在要回送的信息。
3xx 重定向
301 已移动 — 请求的数据具有新的位置且更改是永久的。
302 已找到 — 请求的数据临时具有不同 URI。
303 请参阅其它 — 可在另一 URI 下找到对请求的响应,且应使用 GET 方法检索此响应。
304 未修改 — 未按预期修改文档。
305 使用代理 — 必须通过位置字段中提供的代理来访问请求的资源。
306 未使用 — 不再使用;保留此代码以便将来使用。
4xx 客户机中出现的错误
400 错误请求 — 请求中有语法问题,或不能满足请求。
401 未授权 — 未授权客户机访问数据。
402 需要付款 — 表示计费系统已有效。
403 禁止 — 即使有授权也不需要访问。
404 找不到 — 服务器找不到给定的资源;文档不存在。
407 代理认证请求 — 客户机首先必须使用代理认证自身。
410 请求的网页不存在(永久);
415 介质类型不受支持 — 服务器拒绝服务请求,因为不支持请求实体的格式。
5xx 服务器中出现的错误
500 内部错误 — 因为意外情况,服务器不能完成请求。
501 未执行 — 服务器不支持请求的工具。
502 错误网关 — 服务器接收到来自上游服务器的无效响应。
503 无法获得服务 — 由于临时过载或维护,服务器无法处理请求。
比如说:
2004-12-03 07:33:25 61.135.145.208 - *.*.*.* 80 GET /index/119.htm - 304 Baiduspider+(+http://www.baidu.com/search/spider.htm)
这就意味着百度蜘蛛在2004-12-03 07:33:25爬过/index/119.htm这一页,它发现这页是没有更新过的。
再比如说:2004-12-03 07:33:25 61.135.145.208 - *.*.*.* 80 GET /index/120.htm - Googlebot/2.1
(http://www.google.com/bot.html)
这就意味着Google蜘蛛在2004-12-03 07:33:25爬过/index/119.htm这一页,它发现这页是新的,并全部爬完。
代码 指示
2xx 成功
200 正常;请求已完成。
201 正常;紧接 POST 命令。
202 正常;已接受用于处理,但处理尚未完成。
203 正常;部分信息 — 返回的信息只是一部分。
204 正常;无响应 — 已接收请求,但不存在要回送的信息。
3xx 重定向
301 已移动 — 请求的数据具有新的位置且更改是永久的。
302 已找到 — 请求的数据临时具有不同 URI。
303 请参阅其它 — 可在另一 URI 下找到对请求的响应,且应使用 GET 方法检索此响应。
304 未修改 — 未按预期修改文档。
305 使用代理 — 必须通过位置字段中提供的代理来访问请求的资源。
306 未使用 — 不再使用;保留此代码以便将来使用。
4xx 客户机中出现的错误
400 错误请求 — 请求中有语法问题,或不能满足请求。
401 未授权 — 未授权客户机访问数据。
402 需要付款 — 表示计费系统已有效。
403 禁止 — 即使有授权也不需要访问。
404 找不到 — 服务器找不到给定的资源;文档不存在。
407 代理认证请求 — 客户机首先必须使用代理认证自身。
410 请求的网页不存在(永久);
415 介质类型不受支持 — 服务器拒绝服务请求,因为不支持请求实体的格式。
5xx 服务器中出现的错误
500 内部错误 — 因为意外情况,服务器不能完成请求。
501 未执行 — 服务器不支持请求的工具。
502 错误网关 — 服务器接收到来自上游服务器的无效响应。
503 无法获得服务 — 由于临时过载或维护,服务器无法处理请求。
比如说:
2004-12-03 07:33:25 61.135.145.208 - *.*.*.* 80 GET /index/119.htm - 304 Baiduspider+(+http://www.baidu.com/search/spider.htm)
这就意味着百度蜘蛛在2004-12-03 07:33:25爬过/index/119.htm这一页,它发现这页是没有更新过的。
再比如说:2004-12-03 07:33:25 61.135.145.208 - *.*.*.* 80 GET /index/120.htm - Googlebot/2.1
(http://www.google.com/bot.html)
这就意味着Google蜘蛛在2004-12-03 07:33:25爬过/index/119.htm这一页,它发现这页是新的,并全部爬完。
搜索引擎蜘蛛及网站robots.txt文件详解
[
2006/07/26 10:39 | by 黑色梦中 ]
2006/07/26 10:39 | by 黑色梦中 ]
我们知道,搜索引擎都有自己的“搜索机器人”(ROBOTS),并通过这些ROBOTS在网络上沿着网页上的链接(一般是http和src链接)不断抓取资料建立自己的数据库。
对于网站管理者和内容提供者来说,有时候会有一些站点内容,不希望被ROBOTS抓取而公开。为了解决这个问题,ROBOTS开发界提供了两个办法:一个是robots.txt,另一个是TheRobotsMETA标签。
注意:robots.txt写法是否正确对搜索引擎抓取网站至关重要,我们尽量按照标准的格式写语句,否则出现的错误可能会导致搜索引擎不能正常爬行站点;我们可以通过google sitemap中的robots.txt检测工具来检查网站上是否存在robots.txt文件以及该文件写法是否正确
对于网站管理者和内容提供者来说,有时候会有一些站点内容,不希望被ROBOTS抓取而公开。为了解决这个问题,ROBOTS开发界提供了两个办法:一个是robots.txt,另一个是TheRobotsMETA标签。
注意:robots.txt写法是否正确对搜索引擎抓取网站至关重要,我们尽量按照标准的格式写语句,否则出现的错误可能会导致搜索引擎不能正常爬行站点;我们可以通过google sitemap中的robots.txt检测工具来检查网站上是否存在robots.txt文件以及该文件写法是否正确




