爬蟲商機,人人可養

img

ShopWiki是今年最受囑目的新一代比價網站之一,因為它強調大量使用類似Google搜尋引擎的「爬蟲技術」(Web Crawler,有的叫網絡蜘蛛、爬行者,我覺得爬蟲最適切便使用之)。所謂「爬蟲」,在意象上就是搜尋引擎放出到網路上四處搜集資訊的機器人。其他跟進的比價網站據說包括DulanceShopzilla等也開始加強使用爬蟲,而比價網站之所以這麼慢才使用爬蟲,除了技術障礙外,最直接的原因當然在於它將打破目前大多數比價網站「Pay per click」的抽成方式(你自動爬到我家我幹嘛還要付你錢),所以目前雖然比價網站很多,他們收集商品名稱、規格的方式仍多仰賴商店端主動配合提供。

對於創投而言,比價引擎有趣的地方在於它有一段戰績輝煌的投資成功史,大網站不知為何總是對比價引擎充滿興趣,所以像MySimonDealtimePriceGrabberShopzilla及遠古時代的C2bJangoJunglee 這些比價網站,創投投資後皆可以順利出場,而且其中有一半的賣價皆超過三、四億美元。而目前還存在的比價引擎,包括了:CNETShopping.comPriceGrabberNexTagDulanceMySimonsBecomePrice.comShopWiki、歐洲的Ciao!與被雅虎買下的Kelkoo,以及beta了好幾年的Froogle等等,之前也寫過一篇相關文章,討論過其他想仿做比價搜尋引擎的創業家或許可參考的另一條除了「比一比」之外的新路

比價商店目前現有營運方式的問題在於,店家得自行刊登目錄。這就好像我們自己做網站,忙完了製作,還得自己到各家搜尋引擎登錄自己的東西,而自己的網路商店至少也有五十項產品,因此這些麻煩讓許多小商店開始望之卻步,最後受害的或許還是消費者,因為這些比價網站事實上只為消費者提供了網路上一小部份的價錢,有些更便宜的網拍商是無法涵蓋到的。

ShopWiki的魅力便在此,撇開比價不說,我覺得它最有趣的地方,是它所幫我們點出的一個四處皆宜的大道理:「爬蟲真的很迷人」。

一般人對爬蟲是很敬畏的,尤其是當知道Google最拿手的項目之一就是爬蟲時,好像這不是平常創業家隨便可以碰的項目。目前很多公司,做的的確是更先進的爬蟲,譬如製作出可搜尋影像檔案的爬蟲的Truveo,所有的創辦人都是博士。而ShopWiki兩個月前也剛宣布製作出驚人的「顏色搜尋」功能,可以搜尋譬如網路上所有粉紅色的商品,不禁讓人要歎,這些爬蟲實在太猛了。有的公司如Dipsie所做的則是恰恰相反過來,讓爬行的引擎可以更容易深入的爬到平常要特殊URL及特殊程式才會叫出來的頁面。國內似乎也有Scupio等會做爬蟲的公司。

事實上,爬蟲這種東西很簡單,它不是真的送出了什麼機器人四處爬灑尿作記號還會爬啊爬回來報告成果,基本上它只是從伺服機仿一般瀏覽器送出訊號,下載一個網站,然後分析內容,並從中擷取其他的連接,然後繼續下去,如此這般而已。有的會分析URL住址,有的會送出其他種類的request,其實都不深奧,剛學程式設計的大學生自己就可以養爬蟲了。

那麼,網路已經爬滿這麼多聰明爬蟲了,除了「除蟲」外,爬蟲還有商機嗎?

一般而言這些爬蟲就算再厲害,據說只能爬整個網路的不到五分之一(20%),這數字仍待商搉。不過先撇開數字不看,「深度」方面的機會也是很明顯的,因為Google再怎麼會爬,天下這麼多網站,它再怎麼在河岸建新大樓也肯定忙不過來了,Google永遠只能做一般搜尋,而且只能限於所有網頁都有的特質,有些特殊領域的網站如交友、購物等等,所透露的資訊何止是它的屬性、它的連接而已!因此,有人説Shopwiki已爬行30萬個點,有人說12萬,無論多少,我想並不重要,因為重要的是,它已經將爬蟲限制在「網路商店」內,範圍已經較Google大幅縮小幾萬倍。

既然爬行的範圍大幅縮小幾萬倍,它就可以爬深一點。畢竟爬蟲是全自動的機器,二十四小時都在爬,一秒內就能讀完整個下載的頁面,找到它想找的東西,它可以做的事情太多了。

而,事實上,我們不必做這麼厲害的爬蟲!只要走小眾市場,頡取出一些有意思東西就好。國內小公司在缺乏資金、技術的情況之下,若要做爬蟲,可考慮讓爬蟲專爬某些種類的網站,譬如部落格,然後擷取一般搜尋引擎所錯過的資訊,統合整理之後,再送給一些需要這些資訊的特殊族群

譬如說,這樣的一個小小動作,可以運用在部落格的世界裡 (類似國外公司Kapow的服務),可以運用在b2b的外包平台上,可以運用在語言學習市場、公益慈善事業市場、金融與投資市場、個人網路形象管理等等,做出一些簡單的爬蟲,讓它四處去爬,爬得深,爬得好。只要爬得好,不怕沒錢拿。

11 Comments