HOMERSS 2.0RSS comments
sizeSMALLMEDIUMLARGEXTRA LARGE
home
time
07 / Wed
02 13 08 17 29
title How Google works? +SEO
title
言
類
論
別

如果網站的點閱率代表著一個網站的成功與否,那麼

什麼網站大家用的最多?

我想是Google吧! 正因為人生充滿了各式各樣的煩惱和問題, 人尋找答案的本能造成對Google的依賴.
然而聰明的妳/你,有沒有想過,每天用的 Google 到底是怎麼運作的?

google

最近因為工作及blog的需要,所以稍微研究了一下Google,說的也不一定都對,如果錯了歡迎大家指教.

Goolge 如何運作? + 如何Search Engine Optimized (SEO)

1.蒐尋: Web Crawler: Googlebot

Google派出很多Crawler(Googlebot )全年無休的找遍所有的 IP, 從每個 IP 的 _root找起, 搜尋每一頁的 anchor links (”<a href=”…) 之後一直連下去(包括動態網頁也可),直到整個website被他逛完為止,也可以想成是派出一大群人,上網狂click所有的網站,然後紀錄. 看似簡單,可是能不能被Google找到,就在這一步.

當然基本觀念是很簡單的,不過假設你就是一個 GoogleBot,除了一見到連結就要把該頁面抓下來之虞,還要避免抓蹈重複的連結,對於經常更新的頁面像是新聞網站或是股票資訊,也必須要常去拜訪,面對極大數量的整個網際網路頁面以及迅速變化的資訊內容,電腦以每秒繞地球七圈的速度可能都不足以迅速支撐這整個資訊架構. 這也是做Search Engine的生意很hardcore的主因,相對薪水也很高就是了…

由於大家大小事大多去問Google大神, 基本上我們做的每個網站都希望被找到(不然就不要做網站了,寫在你家牆壁上就好)
如果不能配合給Google找的到的, 可能你問Google他也不知? 也並不是隨便弄都會被找到, 如果找不到,那豈不是遜掉? 以下會跟大家分享一些方法, 提高讓Google看的到你的網站的可能性.

光想IP(v4)的可能性,乘以每個IP裡面會有的網頁數目,整個internet的網頁還有網頁裡的字,可以說眾如繁星,所以並不是每個GoogleBot在架站好的一瞬間就會來訪.
一般來講如果是看起來架構合理的html site,然後部分別的website有連結過來,應該在幾週內,GoogleBot就會來訪,你可以在search的時候用 site:http://….去搜尋看看你的site在Google裡面有的Index.

1.1. 由於Googlebot會去觸動網頁,所以項是Asp,php,cfm 這些 query database 轉換成 text-based web-pages 不會因為資料放在database中而找不到. 不過! Google don’t render Javascript,也就是說如果你用 write 指令寫網頁的話,很抱歉,Google是看不到的. 另外,愛用ajax的人,常常利用iframe去改變browser的history,所以google也會忽略<iframe>

1.2. Flash 眾所詬病的部分就在無法跟Google相容, 因為Google只搜尋用文字組成的html site, 而在swf裡面並搜尋不到, 畢竟Search Engine可以成為網站很有效的宣傳管道, 使用Flash 會有所困難. 當然啦!這也不是無解.

1.2.0. I don’t really care if google can find me or not… 基本上你什麼都不用作,說不定還被找到,如果你還想付出一點點力氣那就去: http://www.google.com/addurl/ 把網址貼上去.

1.2.1. Keywords: 一般網站都會放一大堆關鍵字(flash也會自己幫你輸出在fla裡面用到的static text field)在 meta tag 的 keywords. Google也不一定看的到啦,就算看到了卻是帶你到Flash網站的一開始,你也不知道怎麼按才會按到你要找的部分.

1.2.2. Sitemap: 有些人說用Google Sitemap讓google找,然後在上面提供適當的url variable之後用swfobj傳給flash,我祝他們順利.當然這個方法也可以用一堆真的html網頁然後redirect到特定的url variable頁面.

1.2.3. DeepLinking: 與其用keywords,使用 Deeplinking就比較fancy了,當然也困難很多.簡單的說一下,由於所有的資料都要給 Google看,所以一定要有一個html-base的page給google找,不過如果是真人(也不是Google)去觸動這個站的話,所連道html-page會自動redirect 頁面到另一個flash的page,並且利用URL variable經由javascript傳給flash,然後flash直接帶你到你搜尋的頁面.
我的方法(或許也是很多人的方法)是所有的東西都寫在XML裡,給flash跟php/asp去讀.

deeplinking1.gif

1.2.3.1. php/asp read XML: google找到php/asp時,他們讀這個XML然後自己generate一個很醜陋簡單的html website (要有anchor跟簡單的html code,讓google覺得這是一個網頁,不然很有可能會被視為垃圾)

1.2.3.2. flash read XML / triggered from search result: 會有兩種情形會開啟flash網站,
1.2.3.2.1. 當user直接打link開啟flash網頁的時候,flash基本上從intro開始,一步步展現內容.或是User直接得到有URL variable的網址,直接帶User到Flash裡面的相關頁面.
1.2.3.2.2. 從search engine裡面找到由 (1.2.3.1) php/asp generate出來的動態網頁時,自動由javascript傳出有URL variable的網址,讀到flash裡面,直接導航user到該尋找的頁面.
(在這同時可以send url去給google analytics可以將flash site在以每一頁為基本做統計,fancy吧!)

1.4. Webmasters 是除了Gmail/Gmap/Calender以外Google的一項服務. 裡面提供了一些方法教你如何協助讓GoogleBot更容易以正確的方式找到你網站裡的內容,同時加入後也可提供了一些:例如Google從網站上找到了什麼?有哪些重要的關鍵字,以及別人是怎麼連結到你的網業的….等等好像有用其實也沒用的資訊.
這些方法包括在根目錄下,提供sitemap,這個sitemap並不是一般大家認識的sitemap html page,而是只有一大堆links的xml檔.(example: silkrt.com的sitemap)

1.5. robots.txt 頻寬與該死的Bots: 自己的網戰被搜尋到固然很好.感覺好像自己的家有警察巡邏好安全一樣,不過話說回來,如果每天都有警察到你家找有沒有死人,你也會覺得很幹! 網站亦是如此, 不只是只有googlebot會來你的網站蒐取資料,其他的還有yahoo,msn…. 等等也都會不定時的派出bots來蒐片你的網站,這樣會會佔掉很多的頻寬,極端一點,想像瞬間內bots加上真人來逛你的網站共有10000個request,我想你的server會很吃力,當然大家download你webpage上的資料也會很慢. 不過這些Bots通常不會這麼機車,他們都會已相當緩慢的速度去逛你的網站,所以你也不用害怕. 不過想想這些Bots就這樣說來就來說走就走,也蠻沒禮貌的,其實不然,你可以再網站的 root放上 robots.txt 來限定他們來的頻率.

2.記錄與蒐集: Index

Googlebots 會抓把整個網站的所有的網頁交給 Indexer,當然找到歸找到,但在這世道下,垃圾或是色賭網頁氾濫,用很簡單的code就可以製造出一大堆無聊的web page,或是popopopopup到永遠的網站.
資料被找到後被視為穢物,或是拿回家放在資料庫裡蒐藏? 說是沒問題的好資料,有多好?(會牽扯到搜尋結果的先後順序),這都很難評斷,畢竟電腦不是人,看到陳冠希的照片也不會有反應,所以在製作網頁端是否可以讓 Google 認為你該網頁是很有價值的.就要靠Web Designer的功力了. 這也就是現在熱門的 SEO (Search Engine Optimization)
如何判斷GoogleBot所蒐集的眾多網頁的有效性跟重要程度,Google用兩大獨家人工智慧去判斷,也是Google兩大重要的科技.(既然重大,所以其實真正的方法也就是機密啦!)
(1)PageRank: 這跟人際關係(或是選舉)有點像,看看連到你的網站的數量跟品質來斷定這個網站的重要性. Rank越高的也就是在search結果出現的時候會在越前面(在第一頁也就是winner了!)
Google並無法用金錢去買PageRank(買票),有時候會有黃色背景的 “Sponsored Links”,那其實是購買關鍵字的廣告,而並非是用錢換來高的PageRank.

pagerank

基於PageRank的原理,請越多人加上你網路的連結(從別的地方連過來的連結,不是你連出去的連結)越多,PageRank就會越高… Silkrt目前還蠻低的,所以請大家在自己的網頁上加上silkrt.com的連結來幫助silkrt提高PageRank. 所謂電腦俚語’推’一下其實是真的有用的.

(2)Hypertext-Matching:這就神了,Google會根據html code的寫法跟每個字所在的位置跟語意去分析哪些字重要,跟哪些字不重要(stop words such as the, is, on, or, of, how, why, as well as certain single digits and single letters),anyway,一定是一堆天才想出來的方法,這不需要太懂.

3.詢問: Qurey Process

終於輪到User了,這個步驟就是當我們在Google的輕巧(3.08 K)簡單(只有一個文字框)頁面,打入我們的疑難雜症之後,按下 Google Search! 之後…
(PS.”I’m Feeling Lucky” 其實是我他媽的很趕,不曉得大家有沒有按過, 按下這個按鈕,不會看到所有結果,而是直接連到第一個結果)

Google開始分析 Qurey String.在這邊 Google會自動幫你判斷錯字(相信大家也常用這個功能改英文拼字吧!?),同時也有自動學習功能,分析資料庫的資料與詢問的問題字串,同時在這邊也可以利用一些特殊的operator去控制Google尋找的方式.(像是 site:silkrt.com 只搜尋 silkrt.com 站內所有在Google資料庫裡的結果)

4.結果:

搜尋結果列印出來,這也沒什麼好講的,不過這裡面也有不少學問:

4.1. 人眼與機械眼,搜尋出來的結果,大部分你按進去就會是”人”該看到的網站,不過有些”人”看到的跟”機械人”看到的並不一樣,你如果查(nikestore)當然按下去會帶你到一個flash網站,不過之前有說過,flash google搜尋不到,那google到底找到什麼,你按下”cached“就會明白原來 nike 網站的工程師也就是ryan的同事,generate 一個html page給google找 (deeplinking)

nikestore

4.2.附帶資訊 $$$

雖說電視廣告是強迫性的,除非你轉檯,不過當你使用google的時候也是一樣的情形,廣告就在你上面跟右邊(見圖綠),差別是這些廣告也是根據你查詢的關鍵字結果,雖沒圖沒聲音更沒有影像,可是你會去點的命中率卻非常的高.

同時在上面((見圖藍))可以用同樣的搜尋字串尋找不同的種類範圍 (google會自動幫你秀出來,這個例子是有關notebook的 Video/Shopping/Images)

同時如果你只想查單字,definition按鈕((見圖紅)可以連到 Answer.com 給你你輸入的單字.

如果你有裝Google Desktop / Google notebook, 在這時候你也可以看到在你local電腦的搜尋結果,以及有一個 Note this, 你可以直接把網頁資訊存到你的 Google Notebook裡面.

.google result


  • 恩... 1 Stars喔~ 2 Stars好! 3 Stars酷!! 4 Stars哇!!! 5 Stars (4 票, 平均: 4.5 / 5) << 請踴躍投票


    2 Messages to “How Google works? +SEO”

    1. Calvin Says:

      哇靠! 我現在才發現這一篇原來寫那麼多, 馬克可以把那個read more的顯示方式改成中文嗎? 或是弄個更明顯的方式? 其實我都會怕可能來此網站的觀眾英文不是很好…連我自己有時候都會不自覺跳過英文顯示的指示…

    2. Marc Says:

      好,加上’詳全文’,並加上了一張deeplinking的說明

    Leave a Message

    :) D: :( :D more »