Google一直在致力于æé«˜æœç´¢ç»“果的准确性ã€åˆç†æ€§ã€å…¬æ£æ€§ã€‚举两个例å,比如,早å‰é’“鱼网站盛行时期,Google有效识别了钓鱼站点并æˆåŠŸé˜»æ¢äº†æ¨¡ä»¿ç«™ç‚¹åœ¨æœç´¢ç»“果获得较好的排åï¼Œæ— è®ºæ˜¯åˆ©ç”¨äººå·¥æ•°æ®åº“还是å¤åˆ¶ç½‘页ã€ç½‘ç«™æƒå¨åº¦è¿™æ ·çš„ç³»æ•°ï¼Œè¿™æ ·çš„è°ƒæ•´çš„ç¡®é™ä½Žäº†æœç´¢ç”¨æˆ·å—到利益å±å®³çš„å¯èƒ½æ€§ï¼›å†æ¯”如,Google䏿–惩罚SPAM SEOç«™ç‚¹ï¼Œå¯¹æ— å®žé™…ä»·å€¼çš„ç«™ç‚¹è¿›è¡Œé™ä½Žæƒé‡æˆ–直接在数æ®åº“ä¸åˆ é™¤ï¼Œè¿™æ— ç–‘éƒ½æ˜¯åœ¨åŠ›æŠ¥æœç´¢ç»“果质é‡ã€‚
在SEOä¼˜åŒ–ç ”ç©¶ä¸ï¼Œæˆ‘需è¦ä¸æ–了解æœç´¢ç»“果的å˜åŒ–趋势,这个过程也使我切身感å—到Google在æé«˜ç”¨æˆ·æœç´¢ä½“验的过程ä¸å¯è°“䏿–¼ä½™åŠ›ã€‚è¿™çš„ç¡®éœ€è¦æ¯ä¸ªSEO人都认真æ€è€ƒï¼Œåˆ°åº•是SEOåœ¨æ”¹å˜æœç´¢ç»“果还是æœç´¢ç»“果在改å˜SEOï¼
互è”网ä¼ä¸šæ£æˆä¸ºå½“下的市场çƒç‚¹———就在阿里巴巴赴港IPOè¿›å…¥å€’è®¡æ—¶ä¹‹é™…ï¼Œå‰æœŸè‚¡ä»·æ¥æ¥é£™å‡çš„百度(BIDU.USï¼‰åˆæŠ›å‡ºäº†é‡ç£…炸弹:百度宣布进军C2C市场,与阿里巴巴集团旗下的淘å®ç½‘å’Œè…¾è®¯æ——ä¸‹çš„æ‹æ‹ç½‘展开争夺战。至æ¤ï¼Œä¸‰å®¶å¸‚值最大的ä¸å›½äº’è”网公å¸ï¼ˆçš†è¶…过百亿美元)都将目光瞄å‘了å‘å±•æ½œåŠ›æ— é™çš„C2C市场。
iResearchè‰¾ç‘žå’¨è¯¢æ ¹æ®Hitwiseå‘布的美国æœç´¢å¼•擎æœç´¢é‡å¸‚åœºä»½é¢æ•°æ®å‘现,2007å¹´7月美国æœç´¢å¼•擎æœç´¢é‡å¸‚场份é¢ä¸Googleå æ®äº†64.4%;雅虎æœç´¢å±…å…¶æ¬¡ï¼Œå æ®æœç´¢é‡å¸‚场份é¢çš„22.1%;而MSN/Liveæœç´¢å 市场份é¢çš„8.8%ï¼›ASKæœç´¢åˆ™å æœç´¢é‡å¸‚场份é¢çš„3.2%.
è°·æŒç½‘站管ç†å‘˜å·¥å…·ä¸ä»…能帮助我们和网站管ç†å‘˜æ²Ÿé€šï¼Œä¹Ÿæä¾›äº†ä¸¾æŠ¥åžƒåœ¾ç½‘ç«™çš„åœ¨çº¿æ¸ é“。感谢我们的用户,我们收到了很多垃圾网站举报。这些举报对我们改进æœç´¢è´¨é‡ï¼Œç»™å‡ºæ›´ç›¸å…³ã€æœ‰ç”¨çš„结果有很大帮助。谷æŒç”¨æˆ·å¯ä»¥å¾ˆæ–¹ä¾¿åœ°é€šè¿‡ä¸¤ä¸ªæ¸ é“(认è¯çš„å’Œä¸éœ€è®¤è¯çš„)进行垃圾网站举报。我们往往优先处ç†é€šè¿‡è®¤è¯çš„æ¸ é“(è¬å¦‚ç«™é•¿å·¥å…·ï¼‰é€’äº¤çš„åžƒåœ¾ç½‘ç«™ã€‚å½“ç„¶ï¼Œä½ ä¹Ÿå¯ä»¥æäº¤æœªç»è®¤è¯æŠ¥å‘Šã€‚由于未ç»è®¤è¯æŠ¥å‘Šæ˜¯åŒ¿å举报,我们给他们赋予的优先级会相对较低。这里我们想讲一讲我们是如何处ç†ä»Žç«™é•¿ç®¡ç†å‘˜å·¥å…·å¾—到的垃圾网站举报的。
通常我们对于文本信æ¯ä¹‹é—´å¾—相关性得计算都是采用å‘é‡çš„办法,我在以å‰çš„PPTé‡Œæ›¾ç»æåˆ°è¿‡ã€‚ç„¶è€Œå¯¹äºŽæ–‡æœ¬ä¿¡æ¯æ›´æ·±å±‚次的分æžä¸èƒ½å•纯从å—é¢ä¸Šåˆ†æžä¸€ç¯‡æ–‡ç« 的关键è¯ï¼Œæ›´é‡è¦çš„æ˜¯å®ƒéšå«çš„æ‰©å±•çš„æ„义。
ä¼ ç»Ÿçš„å…³äºŽè®¡ç®—æ–‡æœ¬ç›¸å…³åº¦å’Œã€ç½‘页和查询的相关性】的计算都是采用匹é…的方å¼è¿›è¡Œçš„,然而这åªèƒ½æ˜¯åŸºäºŽå—颿„义上的统计计算。这里介ç»çš„åšæ³•是采用关键è¯ç›¸å…³æ€§æ‰©å±•çš„åšæ³•ä»Žè€Œå¾—åˆ°æ›´åŠ ç²¾ç¡®çš„ç›¸å…³åº¦è®¡ç®—ã€‚
ã€æœ€çŸè·¯å¾„】 圆明å›çš„北部有一个迷宫,æ®è¯´å¤æ—¶å€™æ¯æ¬¡æœ‰åº†å…¸åœ¨åœ†æ˜Žå›çš„æ—¶å€™ï¼Œçš‡å¸ä¼šæ´¾ä¸€äº›å®«å¥³èµ°è¿·å®«ï¼Œçœ‹è°æœ€å…ˆèµ°åˆ°è¿·å®«å†…çš„äºå,会有ä¸é”™çš„奖èµã€‚ 迷宫问题对数å¦å®¶ä»¬æ¥è®²è™½ç„¶æ˜¯å°å„¿ç§‘但在计算机课程上å´éžå¸¸é‡è¦ï¼Œå› 为ä¸åŒçš„æ±‚解会涉åŠåˆ°é€’归,广度优先和深度优先ç‰ç®—法。 迷宫毕竟是一个放置在2维空间的有é™è”系的网络,也就是说,迷宫里的æ¯ä¸€ä¸ªç‚¹ï¼Œæœ€å¤šåªå’Œå‘¨å›´çš„4个点(上下左å³)å‘生关系,而且这些点的ä½ç½®æ˜¯å›ºå®šçš„。
ç†è§£åˆ†è¯æŠ€æœ¯å¯¹SEO工作具有æžå¤§æ„义,å¯ä»¥ä»Žç§‘å¦çš„角度æ¥åˆ†æžå…³é”®è¯ï¼Œå¹¶æž„想关键è¯éƒ¨ç½²ç–略;如果æ£å‘最大匹é…算法的结论是æ£ç¡®çš„,那基本上å¯ä»¥æ–定,切è¯åŽçš„分è¯çš„æƒé‡æ˜¯æŒ‰ç…§æ£å‘排åºçš„
æˆ‘è¿˜æƒ³æžæ˜Žç™½çš„æ˜¯ä¸“用è¯å…¸å’Œæ™®é€šè¯å…¸ï¼Œå“ªä¸€ä¸ªæƒé‡ä¼šæ›´é«˜ï¼Ÿ
好网站的特性
å¥½çš„ç½‘ç«™é€šå¸¸å†…å®¹ä¸°å¯Œã€æ›´æ–°åŠæ—¶ã€‚å¥½çš„ç½‘ç«™å¾€å¾€é“¾æŽ¥å…¶ä»–å¥½ç½‘ç«™ï¼ŒåŒæ—¶ä¹Ÿå¸å¼•更多点击。自然的链接是谷æŒé¡µé¢æŽ’å算法决定排åçš„å› ç´ ä¹‹ä¸€ï¼Œä½†æ˜¯ï¼Œå¾ˆå¤šç½‘ç«™ç®¡ç†å‘˜è®¤ä¸º“åå‘链接越多,网站的排å越高”。这一ç†è®ºæ˜¯é”™è¯¯çš„。 è°·æŒçš„æŽ’å算法对网站的评价是一个多元化的系统。在考虑åå‘é“¾æŽ¥çš„åŒæ—¶ä¼šç”„别有效链接和自动产生的链接。一个明显的例å就是 2007 å¹´ 5 月份结æŸçš„æ¸¡è™Žè°·å¤§èµ›ï¼Œè°·æŒæŽ’å第一的网站的åå‘链接总数是 3,600 个左å³, 其他许多低排å网站的åå‘链接超过了 10,000 个,大多数的链接是程åºäº§ç”Ÿçš„链接。
éšç€åœ¨çº¿å¹¿å‘Šçš„æµè¡Œï¼Œpay by per click (æ¯æ¬¡ç‚¹å‡»ä»˜é’±)çš„æ¨¡å¼ é€æ¸è¢«å¤§å®¶æŽ¥å—ã€‚å¯æ˜¯éšä¹‹è€Œæ¥çš„问题就是fraud clicking的预防迫在眉æ·ï¼Œå› 为这将直接关系到这ç§å¹¿å‘Šæ¨¡å¼èƒ½å¦é•¿ä¹…生å˜å’Œèƒ½å¦æˆä¸ºä¸€ç§çœŸæ£çš„ç½‘ç«™æ‹¥æœ‰è€…çš„æ”¶å…¥æ¥æºã€‚
下é¢ä»‹ç»Google Adsense系统如何从系统角度出å‘防æ¢ç‚¹å‡»æ¬ºéª—,希望对其它的在线广告系统防æ¢è™šå‡ç‚¹å‡»èƒ½æœ‰å¾ˆå¥½çš„æŒ‡å¯¼ä½œç”¨:
ã€€ã€€æ®æ‚‰ï¼Œè°·æŒç½‘站优化器是一款多功能的登陆页é¢ä¼˜åŒ–工具,å¯ä»¥è®©è¥é”€äººå‘˜å¾—以测试å„ç§æœ‰å…³ç½‘é¡µå†…å®¹çš„æƒ³æ³•ï¼Œä¾‹å¦‚æ ‡é¢˜ã€ä¿ƒé”€æ€§å‰¯æœ¬æˆ–图åƒç‰ã€‚该应用æä¾›äº†æ˜“于阅读的报告,让广告主清晰地看到究竟哪一ç§å˜åŒ–最能引起站点访问者的共鸣。它是一ç§è‡ªåŠ©å¼åº”用,让站长自己动手设置和è¿è¡Œä¸åŒç±»åž‹çš„登陆页é¢å®žéªŒã€‚
  官方é€éœ²ï¼ŒGoogle(è°·æŒ)网站优化器(www.google.com/websiteoptimizer)ç›®å‰ä¸ºè¯•用版,它整åˆåˆ°äº†Google(è°·æŒ)AdWords计划ä¸ï¼Œå¹¶å…è´¹æä¾›ç»™AdWords广告主。
  æ®ç§°ä»ŠåŽçš„å‡ ä¸ªæ˜ŸæœŸï¼Œè°·æŒç½‘站优化器应用自动对所有广告主的å¸å·å¼€æ”¾ã€‚站长å¯ä»¥æ ¹æ®æœ€é«˜çš„转化率æ¥åˆ¤æ–哪些内容是最有效的。
上é¢è¯´è¿‡,ç»è¿‡åˆ†æžå¾—出百度的分è¯ç³»ç»Ÿé‡‡ç”¨åŒå‘最大匹é…分è¯,ä½†æ˜¯åŽæ¥å‘现推ç†è¿‡ç¨‹ä¸å˜åœ¨ä¸€ä¸ªæ¼æ´ž,而且推导出æ¥çš„百度分è¯ç®—法æ¥éª¤è¿˜æ˜¯è¿‡äºŽç¹ç,所以进一æ¥è¿›è¡Œåˆ†æž,看看是å¦å‰é¢çš„æŽ¨å¯¼æœ‰é”™è¯¯.
拼写检查错误æç¤ºæ˜¯æœç´¢å¼•擎都具备的一个功能,也就是说用户æäº¤æŸ¥è¯¢ ç»™æœç´¢å¼•擎,æœç´¢å¼•擎检查看是å¦ç”¨æˆ·è¾“入的拼写有错误,å¯¹äºŽä¸æ–‡ç”¨æˆ·æ¥è¯´ä¸€èˆ¬é€ æˆçš„é”™è¯¯æ˜¯è¾“å…¥æ³•é€ æˆçš„错误.那么我们就æ¥åˆ†æžçœ‹çœ‹ç™¾åº¦æ˜¯ 怎么实现这一功能的.
ã€€ã€€æˆ‘ä»¬åˆ†æžæ‹¼å†™æ£€æŸ¥ç³»ç»Ÿå…³æ³¨ä»¥ä¸‹å‡ 个问题:
  (1)系统如何判æ–用户的输入是有å¯èƒ½å‘生错误的查询呢?
  (2)å¦‚æžœåˆ¤æ–æ˜¯å¯èƒ½é”™è¯¯çš„æŸ¥è¯¢è¾“å…¥,如何æç¤ºæ£ç¡®çš„è¯æ±‡å‘¢?
éšç€æœç´¢ç»æµŽçš„å´›èµ·ï¼Œäººä»¬å¼€å§‹è¶ŠåŠ å…³æ³¨å…¨çƒå„大æœç´¢å¼•æ“Žçš„æ€§èƒ½ã€æŠ€æœ¯å’Œæ—¥æµé‡ã€‚作为ä¼ä¸šï¼Œä¼šæ ¹æ®æœç´¢å¼•擎的知ååº¦ä»¥åŠæ—¥æµé‡æ¥é€‰æ‹©æ˜¯å¦è¦æŠ•放广告ç‰ï¼›ä½œä¸ºæ™®é€šç½‘æ°‘ï¼Œä¼šæ ¹æ®æœç´¢å¼•擎的性能和技术æ¥é€‰æ‹©è‡ªå·±å–œæ¬¢çš„引擎查找资料;作为技术人员,会把有代表性的æœç´¢å¼•æ“Žä½œä¸ºç ”ç©¶å¯¹è±¡. æœç´¢å¼•æ“Žç»æµŽçš„崛起,åˆä¸€æ¬¡å‘äººä»¬è¯æ˜Žäº†ç½‘络所蕴è—的巨大商机。网络离开了æœç´¢å°†åªå‰©ä¸‹ç©ºæ´žæ‚乱的数æ®ï¼Œä»¥åŠå¤§é‡ç‰å¾…去费力挖掘的金矿。
Search engine spider(bot) id list
䏋颿˜¯è°¢å°”ç›–.布林的回ç”:
“简å•化是一个é‡è¦çš„趋势,所以我们éžå¸¸å…³æ³¨ã€‚就科技这æ¡è·¯æ¥è¯´ï¼Œå®ƒå·²ç»å˜å¾—è¿‡åˆ†å¤æ‚äº†ï¼Œè€ŒåŒæ—¶ï¼Œç®€å•化确是人们使用Google的最基本å¸å¼•力。对于互è”网技术而言,这ç§å¤æ‚å·²ç»æˆä¸ºäº†ä¸€ä¸ªä¸å¾—ä¸åŠªåŠ›è§£å†³çš„é—®é¢˜ï¼Œè€Œç”¨è®¾å¤‡æˆ–è€…è®¡ç®—æœºæ¥è§£å†³æ˜¯éžå¸¸å›°éš¾çš„。æˆåŠŸæ˜¯æ¥è‡ªäºŽç®€å•化的。看看苹果公å¸ï¼Œä»–们æ£åœ¨åšçš„使得他们éžå¸¸æˆåŠŸã€‚â€
â€œæˆ‘ä»¬æ›´åº”è¯¥å…³æ³¨ç‰¹è‰²ï¼Œè€Œä¸æ˜¯äº§å“本身。我们必须解决一个糟糕的问题,就是产å“çš„è¿‡åˆ†å¤æ‚ã€‚æˆ‘ä»¬ä¸æƒ³é‡‡ç”¨20ç§ä¸åŒçš„æ–¹å¼æ¥ä½¿ç”¨20ç§ä¸åŒçš„产å“。我个人感觉,我们已ç»å¤±åŽ»äº†æŒç»å¸å¼•ç”¨æˆ·çš„ä¸€åˆ‡ã€‚æˆ‘æ›´æƒ³æ‹¥æœ‰å°‘æ•°å‡ ä¸ªå…±åŒç‰¹è‰²çš„产å“。â€
  日å‰ï¼Œæœç‹å…¬å¸æ——下自主å“牌æœç‹—æœç´¢å¼•擎宣布,æœç‹—网页æœç´¢3.0版本将于2007å¹´1月1æ—¥æ£å¼ä¸Šçº¿ï¼Œæ–°ç‰ˆæœ¬å°†å‡å€Ÿå…¶è‡ªä¸»ç ”å‘çš„æœåŠ¡å™¨é›†ç¾¤å¹¶è¡Œçš„æŠ“å–æŠ€æœ¯ï¼Œæˆä¸ºå…¨çƒé¦–ä¸ªä¸æ–‡ç½‘站收录é‡è¾¾åˆ°100亿的æœç´¢å¼•擎,并以æ¯å¤©5亿网页的更新速度åŠç‹¬ä¸€æ— 二的æœç‹—网页评级体系,在海é‡ã€åŠæ—¶ã€ç²¾å‡†ç‰æœç´¢å¼•æ“ŽåŸºæœ¬æŒ‡æ ‡ä¸Šå…¨é¢å‡çº§ä¸æ–‡æœç´¢å¼•æ“Žçš„ç”¨æˆ·ä½“éªŒï¼Œå†æ¬¡æŽ€èµ·æœç´¢å¼•擎新一轮技术é©å‘½ã€‚
  Googleå’ŒBaidu收录网站页é¢çš„æ ‡å‡†æ˜¯ä¸åŒçš„。
  为了验è¯è¿™ä¸€ç‚¹ï¼Œæˆ‘åšä¸€ä¸ªå®žéªŒï¼šæˆ‘申请了一个新域åwww.moon-blog.com,ä¸å†å…¶ä»–任何网站åšé“¾æŽ¥ï¼Œè€Œç›´æŽ¥å¾€ç™¾åº¦å’ŒGoogleæœç´¢å¼•擎的æäº¤é¡µé¢è¿›è¡Œæäº¤ã€‚一个月过去了,百度收录的网页是24,900篇,Google收录的网页是0,这è¯å®žäº†æˆ‘以å‰çš„猜测。
è¯´çš„ç®€å•æ˜“æ‡‚ä¸€äº›ï¼Œç½‘ç»œçˆ¬è™«è·Ÿä½ ä½¿ç”¨çš„ã€–ç¦»çº¿é˜…è¯»ã€—å·¥å…·å·®ä¸å¤šã€‚说离线,其实还是è¦è·Ÿç½‘络è”结,å¦åˆ™æ€Žä¹ˆæŠ“东西下æ¥ï¼Ÿé‚£ä¹ˆä¸åŒçš„地方在哪里?
1】 网络爬虫高度å¯é…置性。
2】 网络爬虫å¯ä»¥è§£æžæŠ“到的网页里的链接
3】 网络爬虫有简å•çš„å˜å‚¨é…ç½®
4】 ç½‘ç»œçˆ¬è™«æ‹¥æœ‰æ™ºèƒ½çš„æ ¹æ®ç½‘页更新分æžåŠŸèƒ½
5】 网络爬虫的效率相当的高
é‚£ä¹ˆä¾æ®ç‰¹å¾ï¼Œå…¶å®žä¹Ÿå°±æ˜¯è¦æ±‚äº†ï¼Œå¦‚ä½•è®¾è®¡çˆ¬è™«å‘¢ï¼Ÿè¦æ³¨æ„哪些æ¥éª¤å‘¢ï¼Ÿ