「強刮」(scraping),繼「盜連」以後的下一個網路黃金大富貴?

我們已經看到,反其道而行去鼓勵「盜連」,曾經讓YouTube瞬間爆紅、成為全美國成長速度最快的網站。但,反其道而行去鼓勵「強刮」(scraping),又會帶來什麼?「強刮盜連」的商機,至今只被礦採了50%而已。

2001年,剛剛被WebVan解雇的一位網路工程師,搖搖晃晃的來到Palo Alto一間破破爛爛的算命舖,沮喪的問長髮女巫:

「2000年代(2000~2010年),我要什麼才能在網路上大富大貴?請賜給我四個字吧!」

神秘深紫色的絨布上,滾出一顆大水晶球,裡面幽幽的出現四個字:「強刮盜連」

「什麼?強刮、盜連,這些不都是不好的事嗎?」

他帶著滿腔不解走出去,轉投履歷到微軟,搬到西雅圖去了。從此不見蹤影。

「盜連」(deeplinking),就是在自己的網站中,連到別人家的圖片,每次有人來你這個站,不必到別人的站點就可以看到這張圖片,而別人的主機卻要繁忙的服務這張圖片,在頻寬不高的年代是很吃資源的事。而「強刮」(scraping),則是讓自己網站放出爬蟲到別人網站,把別人的資料搬過來,整理一下改以另種方式服務自己的使用者;它和「盜連」的做法不同,但影響是一樣的──使用者不必到母站,直接在子站就「看到了」他想看的東西。而子站完全像強盜一樣,沒有和母站知會、亦沒有簽約,就直接「拿人家東西來用」。有時候母站還查不出這種行為,拿子站完全沒辦法!

不過,YouTube首創「嵌」,以「讓人光明正大的盜連」,創造更多影片上載的需求,反而繞過來今天市佔直逼75%。而「強刮」的商機,也早有許多網站看到,今天Google、Yahoo、Amazon都是強刮的熱情支持者,提供了一些「資料」及簡單不過的data API,讓工程師可以寫程式去挖資料。但,他們真的是完全的、充滿誠意的在提供「強刮」嗎?

這期的Wired雜誌的文章《Should Web Giants Let Startups Use the Information They Have About You?》,就是在檢討大網站對所謂的「scraping」的灰色支持。

文章提了一個實例。一個叫做Listpic的網站,由29歲年輕華裔創業家獨自寫成,將線上分類廣告網站Craigslist的所有「求售」的「物件照片」,全部「強刮」集中在自己的網站中,一頁全覽,使用者就再也不必麻煩的一則一則點進去看照片,ListPic也一天成功引來4萬名不重覆使用者,AdSense廣告月入好幾千美元。但有一天,他突然收到Craigslist寄來的律師存證信函,要求馬上移除該服務;其實他也不必移,因為兩小時後,Listpic一片空白,再也抓不到Craigslist的圖了,現在Listpic只能改抓另一家分類廣告Oodle的圖,原本的使用者也全都流失殆盡。另外還有一間Statsaholic,原本叫Alexaholic,專門「強刮」Alexa的資訊,後來也是被對方律師告到終於收手,不過Statsaholic運氣不錯,現在它從其他地方挖,流量不減反增,是原本的三倍

文章的重點在,許多網路公司,表面上不會太反對類似「強刮」的事情。文章舉例像美國銀行、Fidelity Investments都讓一個叫Yodlee的抓服務來抓。而eBay也乖乖讓Google抓到它的Google Product Search去。但,「強刮」畢竟還是一家公司得利於另一家公司,當兩邊的業務產生衝突時,就很難說了!有些網站只在「你小」的時候讓你隨便「強刮」,等你大了,就會以「影響它的流量」而找理由擋住你。文章指出,譬如Yelp曾經就破了Google Maps的使用上限,結果在毫無預警下被停掉,還好之前有拿到資金,不然就「銼起來」了。連LinkedIn原本做「email萃取」萃得好好的,卻在微軟投資了同樣是社群網站的Facebook後風雲變色,再也進不了微軟的Hotmail萃取信件。文章指出,現在有很多小公司譬如Zillow從Navteq、GlobeXplorer、Proxix抓來地圖資訊,微軟的實驗產品Photosynth則從Flickr抓圖。之前也寫過一家DailyCaption也從Flickr抓素材,萬一有一天他們所仰賴的寄主突然「收手」,不讓他們「強刮」,怎麼辦?

這篇文章顯然是認為大公司不要禁止「強刮」,至少,也不要「突然間禁止」,讓網站措手不及,文末也八股的說Scraping最後還是讓使用者快樂,而使用者才是這些資料的主人云云。但「強刮」這種東西本來就是一體兩面,誰辯誰有理,到最後就是「資源」的問題而已。不如來想想,有沒有可能和「盜連」一樣?

Google、Yahoo、Amazon、Facebook這些大公司,表面上提供資料服務讓人「強刮」,但其實仍然帶著「保留」。而且,「強刮」所需要的技術難度相對仍比「盜連」高,再精心設計的程式介面與再大量的實例,仍然需要懂程式語言才可以做「強刮」。真正讓YouTube起飛的,最後還是得仰賴全民,而全民除了寫程式以外,其實他們的「興趣」、「創意」都不比程式設計師差,可以千奇百怪的去使用Google、Yahoo、Amazon、Facebook的資料。這個商業機會我想是相當明顯,假如可以做出一個讓任何人都能強刮資料、放到自己首頁的服務,而該母站本身的資料已經充足(或是本身也從合法的「強刮」去充足自己的資料),將會是個很大的機會。而且,此第一個「100%擁抱強刮」的網站,和第一個「100%擁抱盜連」的YouTube不同,它會是一個和「全民作生意」有關的網站。這個關於「強刮」站,我想,將有希望在今年明年後年,挑戰下一個堪比YouTube的大成功。

(圖片來源:http://www.iconico.com)

6 comments

  1. 我很喜歡您的文章內容及風格,繼續加油喔!!!自己也借來看了你的著作,"搶先佈局十年"那本,對未來趨勢想法寫得很廣,真的是太棒了,感謝你的用心.

  2. 我的感覺是,有一些網站會從別的站刮東西來,而刮出規模以後,就可能被告或警告,不過你這時已經有規模了,接下來就是轉型,或是不聽繼續做你的(如果你已經規模大到有閒暇打官司)…有時,規模用完全正當的方法是拿不到的,而是要先用不太乾淨的方法打下規模再金盆洗手…

  3. 當你知道並經常訪問一個網站的時候,這個網站基本上已經起來了,網站最為關註的流量很可能是原始積累期間用非常規手段獲得的。但是,說實話,好的創意也總是少數的,大部分都是在模仿和抄襲,然後企圖本地化,這也是互聯網泡沫的一種正常現象。

迴響已關閉。