爬蟲商機,人人可養

img

ShopWiki是今年最受囑目的新一代比價網站之一,因為它強調大量使用類似Google搜尋引擎的「爬蟲技術」(Web Crawler,有的叫網絡蜘蛛、爬行者,我覺得爬蟲最適切便使用之)。所謂「爬蟲」,在意象上就是搜尋引擎放出到網路上四處搜集資訊的機器人。其他跟進的比價網站據說包括DulanceShopzilla等也開始加強使用爬蟲,而比價網站之所以這麼慢才使用爬蟲,除了技術障礙外,最直接的原因當然在於它將打破目前大多數比價網站「Pay per click」的抽成方式(你自動爬到我家我幹嘛還要付你錢),所以目前雖然比價網站很多,他們收集商品名稱、規格的方式仍多仰賴商店端主動配合提供。

對於創投而言,比價引擎有趣的地方在於它有一段戰績輝煌的投資成功史,大網站不知為何總是對比價引擎充滿興趣,所以像MySimonDealtimePriceGrabberShopzilla及遠古時代的C2bJangoJunglee 這些比價網站,創投投資後皆可以順利出場,而且其中有一半的賣價皆超過三、四億美元。而目前還存在的比價引擎,包括了:CNETShopping.comPriceGrabberNexTagDulanceMySimonsBecomePrice.comShopWiki、歐洲的Ciao!與被雅虎買下的Kelkoo,以及beta了好幾年的Froogle等等,之前也寫過一篇相關文章,討論過其他想仿做比價搜尋引擎的創業家或許可參考的另一條除了「比一比」之外的新路

比價商店目前現有營運方式的問題在於,店家得自行刊登目錄。這就好像我們自己做網站,忙完了製作,還得自己到各家搜尋引擎登錄自己的東西,而自己的網路商店至少也有五十項產品,因此這些麻煩讓許多小商店開始望之卻步,最後受害的或許還是消費者,因為這些比價網站事實上只為消費者提供了網路上一小部份的價錢,有些更便宜的網拍商是無法涵蓋到的。

ShopWiki的魅力便在此,撇開比價不說,我覺得它最有趣的地方,是它所幫我們點出的一個四處皆宜的大道理:「爬蟲真的很迷人」。

一般人對爬蟲是很敬畏的,尤其是當知道Google最拿手的項目之一就是爬蟲時,好像這不是平常創業家隨便可以碰的項目。目前很多公司,做的的確是更先進的爬蟲,譬如製作出可搜尋影像檔案的爬蟲的Truveo,所有的創辦人都是博士。而ShopWiki兩個月前也剛宣布製作出驚人的「顏色搜尋」功能,可以搜尋譬如網路上所有粉紅色的商品,不禁讓人要歎,這些爬蟲實在太猛了。有的公司如Dipsie所做的則是恰恰相反過來,讓爬行的引擎可以更容易深入的爬到平常要特殊URL及特殊程式才會叫出來的頁面。國內似乎也有Scupio等會做爬蟲的公司。

事實上,爬蟲這種東西很簡單,它不是真的送出了什麼機器人四處爬灑尿作記號還會爬啊爬回來報告成果,基本上它只是從伺服機仿一般瀏覽器送出訊號,下載一個網站,然後分析內容,並從中擷取其他的連接,然後繼續下去,如此這般而已。有的會分析URL住址,有的會送出其他種類的request,其實都不深奧,剛學程式設計的大學生自己就可以養爬蟲了。

那麼,網路已經爬滿這麼多聰明爬蟲了,除了「除蟲」外,爬蟲還有商機嗎?

一般而言這些爬蟲就算再厲害,據說只能爬整個網路的不到五分之一(20%),這數字仍待商搉。不過先撇開數字不看,「深度」方面的機會也是很明顯的,因為Google再怎麼會爬,天下這麼多網站,它再怎麼在河岸建新大樓也肯定忙不過來了,Google永遠只能做一般搜尋,而且只能限於所有網頁都有的特質,有些特殊領域的網站如交友、購物等等,所透露的資訊何止是它的屬性、它的連接而已!因此,有人説Shopwiki已爬行30萬個點,有人說12萬,無論多少,我想並不重要,因為重要的是,它已經將爬蟲限制在「網路商店」內,範圍已經較Google大幅縮小幾萬倍。

既然爬行的範圍大幅縮小幾萬倍,它就可以爬深一點。畢竟爬蟲是全自動的機器,二十四小時都在爬,一秒內就能讀完整個下載的頁面,找到它想找的東西,它可以做的事情太多了。

而,事實上,我們不必做這麼厲害的爬蟲!只要走小眾市場,頡取出一些有意思東西就好。國內小公司在缺乏資金、技術的情況之下,若要做爬蟲,可考慮讓爬蟲專爬某些種類的網站,譬如部落格,然後擷取一般搜尋引擎所錯過的資訊,統合整理之後,再送給一些需要這些資訊的特殊族群

譬如說,這樣的一個小小動作,可以運用在部落格的世界裡 (類似國外公司Kapow的服務),可以運用在b2b的外包平台上,可以運用在語言學習市場、公益慈善事業市場、金融與投資市場、個人網路形象管理等等,做出一些簡單的爬蟲,讓它四處去爬,爬得深,爬得好。只要爬得好,不怕沒錢拿。

11 comments

  1. 針對某個領域的爬蟲,其所反應的結果,的確可提供使用者較高的 value,原因無他,就 focus 一個字。

    之前也做過 http://trackerdog.a0soft.com 網站。這個網站的主要功能是,每當 Palm 使用者 HotSync 時,順道幫他檢查其所使用的程式是否有最新或更新版。

    這網站的背後就有一隻網路蜘蛛,除了用爬的找出新版本號之外,使用者貢獻也是絕技之一。做的時候,還做過 competitor survey,發現 bay area 也有一家幾乎同性質的網站, 不過其蒐集資訊的方法還是太傳統了 (由 software vendor 提供),這當然不 work,沒幾個月就關門了。

    不過另一家, VersionTracker,就還不錯。除了 Palm 之外,還涵蓋了大多數的 OSs。

  2. 題外話

    其實,蜘蛛比爬蟲更能代表 Crawler 的意義。因為蜘蛛是沿著蜘蛛網的絲線爬行,正如同這些 Robot 按照著網路上的 Link 不斷的自動搜尋。清楚 Google 技術的人,就知道如果你的網站沒有任何對外聯結,也沒有任何連結連到你,則 Crawler 是無法爬到妳的網站的。

    所以這些機器人也被暱稱為 Web Spider. 把它叫做爬蟲類似乎無法突顯這技術的特質。(畢竟恐龍也是爬蟲啦…)

    ==
    行話 ( Business Talk)
    最專業的企管行銷 Blog
    http://blog.yam.com/miula/

  3. 感謝Charles大:

    的確,搜尋引擎是大學問,
    但我所形容的爬蟲沒這麼偉大!!
    這裡說的爬虫,舉個例子好了:
    只要送出一個HTTP request
    然後簡單做一下line-by-line parsing
    以reqular expression與pattern match挑出所有的 tag
    接著分辨這是普通的link還是mailto
    然後把email收起來,URL繼續挖下去,
    呵呵,就是一個討人厭的Spam爬蟲了 🙂

    像這樣簡單的爬蟲也可以做得很有意思…..特別是針對一些特殊網站
    挖一些特別資料的爬蟲…

  4. 蜘蛛這個名字的確有比較多有趣的隱喻,除了Miula所說的部分之外,Web本身又有蜘蛛網的含意在,配上Spider正好湊一對。

  5. 這讓我想起來在矽谷八卦界頗有名氣的年輕亮眼Google VP M&M 提過, 當年Google 早期時所請的一位專門寫 Crawler 的工程師 … 當時同事們就都稱他為 “Spidie" … 好個大蜘蛛

  6. 目前看起來,在購物比價的部分相關服務還滿多的,43Deals、DealMine、wazima應該都可以算是Mr. 6所說的利基爬蟲吧?

  7. […] 爬蟲商機,人人可養 (Mr. 6) 08/16 09:39, 2006 引述 :『只要走小眾市場,頡取出一些有意思東西就好。國內小公司在缺乏資金、技術的情況之下,若要做爬蟲,可考慮讓爬蟲專爬某些種類的網站,譬如部落格,然後擷取一般搜尋引擎所錯過的資訊,統合整理之後,再送給一些需要這些資訊的特殊族群。』 (標籤: crawler spider 比價 shopwiki) […]

迴響已關閉。