你所不知道(與沒想過)的酷比Scupio

大家對酷比(Scupio)的印象大約都是「它和Google做同樣東西──搜尋引擎」。知道的比較深一點的,就會說他們是做「以文找文」,是「全球唯一沒有字數限制的中文搜尋網站」,以此來區隔與Google的差異,而每當與這樣的人聊到酷比,他們往往還要加一句話:「唉,技術強的,不見得可以賺很多錢。」

這句話充滿了尊敬,也充滿了遺憾,而同樣的遺憾同時發生在各大專院校中,教授們常寫出登在國際期刊的重要研究成果,工研院資策會等半官方機構不斷的想辦法把各大學資訊或資工系教授的發展成果給商業化,但無論是技術移轉或什麼名堂的都少有成功的大型國際級軟體公司因而被創出來。除了「技術強的,不見得可以賺錢」這句話以外,我還聽過「點子好的,不見得可以賺錢」、「有被投資的,不見得可以賺錢」,我就想,這些稱讚語難道永遠都要用一個「不見得可以賺錢」來結尾嗎?我們難道想不出一句話,「絕對可以賺錢」嗎?

有的,那就是「強大技術,加上創新點子」。「強大技術 + 創新點子」若相加得當,真的會是蠻有機會賺錢的一個方式。為什麼?

昨晚演講時,學員提出一個好問題:「目前在台灣作軟體的,有任何機會在只靠一張BP、沒有產品的情況下,就拿到創投資金嗎?」

我原本很快的就想說「No」,但突然想到,一位傑出矽谷朋友在台灣創立的阿瑪科技(Armorize Technologies)是以一張榮獲WWW大獎的傑出論文,在還沒有產品的情況下就取得了資金。台灣有許多資訊系教授的論文有得獎、有上國際期刊,如果能把他們的「強大技術」,加上你的「創意點子」,使用得當便容易取得資金,而且事實上也因為技術的深度,而讓這點子和其他純創意點子瞬間有了不同的高度,容易成功!

事實上,酷比的技術還真不是普通的強路透社Reuter提供一個叫做21578 Text Categorization Test Collection的測試資料,專門給全球做字義分類(text categorization)的研究團隊來計算他們設計的引擎的準確度,據酷比官方表示,目前全世界最高的就只有92%準確度,酷比背後的引擎卻能達到94.46%。此外,攤開2001年到2005年參加的各種比賽所獲佳績,酷比真的可以「叫我全球第一名」!

攤開酷比的技術看看,可發現它的重點確實與其他搜尋引擎不同,如果你很急的要搜一件事情,那全世界沒人打得過閃電般的Google,但如果你是搜第二次、搜第三次,天天都要搜同一件事情呢?酷比抓準了一個關鍵點──一般人搜尋往往只用到不到五個字的keyword,但往往的情況是,每個人使用同樣的五個字時,他們心理想的東西其實不太一樣。比如我搜尋「姚明、NBA」或許是想找姚明的生平,我加上「NBA」只是因為我怕找到其他同名同姓的人;但另一人搜尋同樣的「姚明、NBA」或許是想找姚明在NBA的相關商品。我們兩人都懂得在關鍵字選擇上面儘量不設限,以免不小心篩掉一些同義字,等Google結果一出再再用自己的眼睛去篩選這篇符合、那篇不符,但我們常常都忽略的一點是,Google對同樣的「姚明、NBA」二字,都是給了同樣的10萬筆結果,有些最精闢的姚明生平的文章,或許藏在第100頁以後,因為其他原因而Page Rank不高?我們永遠都不知道。

因此,酷比所謂「以文找文」並不是給這些急著找東西的使用者,而是給那些可能會用同樣的字串一搜再搜、或是給那些一定要找遍全天下最棒資料的「重度搜尋使用者」。酷比做到Google所不能做的,就是它可以讓使用者訓練它去搜尋得更正確。使用者把第一次搜出的所有文章,找出他們覺得最正確的,告訴酷比「這些你對了」,也找出他覺得不太符合的,告訴酷比「這些我不要」,然後酷比就會自動分析這些文章,製成一個「專題」(topic),存下來,下次找的時候,就用這個預設的專題去找,就會很準確的找到一堆我真正想找的東西。

酷比背後的技術已研發了十年之久,無法簡短述之,他們基本上用所謂「Vector」概念來形容所有的搜尋需求,把每個關鍵字都賦與一個權重(weight),而且這個權重是可以因人而異、因情況而異。每次餵給酷比「好文、壞文」,酷比就會改變這個權重,這時候,這個Vector就好像一張正確答案表,他們可以拿著這個表去比對接下來每一篇新文章,為它們算出一個新分數,高分的才錄取,低分的就不要。

你一定會問,有誰想要這麼麻煩的搜尋東西?這的確就是酷比一直在努力開拓的部份。它用這套,加上其他一些技術如可以自動找出其他關聯字的「星狀圖」功能、自動從一些文章整理出群落(clustering)的分類功能、關鍵字分析的功能等等,對於企業來說,就是一套強大的知識管理工具,而對於有需求的研究機構來說也是一套非常好用的資料收集工具。但對於一般消費者呢?誰會想用這樣的工具?酷比試著做出類似Google AdSense的酷比精準廣告聯播服務,在AdSense繁中版出來之前有很多人搶先試用,不過目前廣告量似不如Google,在這樣的情況下,就算酷比的vector可以根據內文內容算得多準,總不能說「對不起,你要的牛肉麵廣告從缺」,因此還是得乖乖播出一個和內文內容無關緊要的廣告。

酷比背後的公司為Bridgewell宇匯知識科技,由前精英電腦業務處長周培林先生創立於1997年3月,當年找來史丹佛的學長與Princeton的博士一同創業,耕耘十年至今,目前員工近40人,R&D就佔了24位,學歷都很嚇人,其中還有5位博士,大多是數學或理工博士,還包括從牛津Johns Hopkins來的。直到大約2年多前才正式發表「酷比」產品,而「酷比」的「Scupio」這個字中,「Cupio」是拉丁文的「concept」(觀念)之意,頭上加一個「S」是「Search」,酷比從一開始就打算循由「搜尋觀念」來殺出一條康莊大道。

有趣的是,酷比已開始和博客來等大型網站開始談合作,未來就用「vector」這招讓網站能快速的計算每一個來訪使用者所想要看的東西,製造出使用者與網站雙贏的使用情境。目前所謂的「個人化首頁」往往只以勾選的方式作一些比較粗略的分隔,一般b2c網站的「upsell」機制又只限於賣產品,但酷比卻給每個使用者都賦與一個「vector」,就算是和我臭氣相投穿一條褲子長大的好朋友,我們的vector仍會不太一樣,所以我們去看同一個網站時,也會看到不太一樣的東西。這樣的「超級自動客製化」的網站引擎,可望在未來成為酷比的代表作。

更棒的是,酷比還計畫將「製造專題」(topic)的動作給外包給全球的網友,透過類似酷比AI神奇貼的產品,讓網友自己也可以訓練酷比引擎,製造出自己的專題,然後放在自己的部落格。受過你訓練的酷比引擎會自動去全世界抓新聞、文章來放在這邊,譬如攝影達人Alan可以訓練酷比去準確找到每天全世界最新上傳的「山岳攝影」的新照片。當然,tagging也有同樣的效果,但相比之下,酷比這種「以文訓練」的方式既容易許多也更加精準。

再回到方才關於「技術強的,不見得可以賺錢」的延伸討論,假如真的如此,那麼天天都有創意點子的創業家,不妨考慮想辦法為自己點子加上「技術深度」。無論你想的點子是「幫人交易物品」、「幫你配衣服」、「幫你找房子」、「幫你找女朋友」,假如在你的點子後面,有一個像酷比一樣獨步世界的技術在支持,以這個「強大技術 + 創新點子」的黃金組合,這一場創業活動的高度,一開始將馬上與眾不同。

有趣的是,台灣早就有很多創意十足的「網路創業家」,也有很多海外回來的教授領導學生埋頭做出「技術」,有沒有什麼介於中間的機制,可以把分散在各大專院校的強大技術,用比較淺顯的語言,作個分類,擺出來,讓創業家可以「選購」,找到適合自己點子的技術,去跟該教授談談授權、談談合作?這樣一來,一方面可以避掉技術高手難尋的問題,一方面,說實在話,有技術在後面,也讓年輕創業家籌資會順利許多。這個介於創業家與技術的中間機制,本身也是很好的創業機會。

或,我們乾脆來做一個酷比topic,訓練酷比去尋找這些分散在各處的技術資源,然後送過來給二人創業活動作個配對;技術高手難尋,所以點子主人不要配技術高手,而是配上教授、配上論文、配上研究生,直接包成一個故事到全球找錢,或許是個蠻值得研究的藍海創業路。

18 comments

  1. 幾年前就有跟酷比的人聊過,當時也是一次部落客聚會,在宇匯知識科技的辦公室,酷比展示他們的以文找文技術,還有酷比犬外掛,酷比的用戶還可以交換彼此設定訓練的Agent等等….酷比精準廣告聯播我還沒辦法用(因為有門檻),要不然我也很想用用看。

  2. 分類只是搜尋引擎技術的一小部份應用, 而整個搜尋引擎最重要的還有搜尋的速度,品質,數量

    可惜我看不到酷比在數量,速度,品質上有很傲人的表現或技術能力, 只能跟人家比「以文找文」, 對使用者來說, 這個功能卻不是最需要的, 對國內很多專注搜尋引擎的廠商來說, 「以文找文」功能並不難, 只是因為市場太小所以不願投入研發

    自動分類的技術也有很多廠商在做, 大家都號稱自己技術最好, 不過市場還是只有在中大型企業, 而他們要的是客製化, 整套的管理流程

    eland, tornado, openfind 都已經在這個領域裡六七年以上, 也都早已退出網路市場轉攻企業與政府市場, 宇匯走網路市場值得讚許和鼓勵, 不過面對 Google 和 Yahoo 全球化競爭, 宇匯是否還能繼續下去, 有點令人擔憂

  3. 以文找文就是關鍵字廣告裡選擇Display哪個廣告很重要的一環;Scupio要跟Yahoo!或Google競爭,重點不只在於精準,還在於排序/顯示的ranking system;Scupio在這方面還有很長一段路要走。

  4. 有技術的人並不一願意冒創業這個險阿
    一個有技術的工程師收入都不錯
    不容易勸說他們創業

  5. 謝謝各位留言, 以創投拜訪公司的直覺, 走進酷比辦公室可感受到一股類似國外公司的"樂在工作"的氛圍, 創辦前輩也非常客氣, 目前他們一頭鑽研技術, 希望做出讓全人類眼睛一亮的東西, 祝福酷比接下來幾個商業計畫皆能於今明數年一一實現…

    此文的"技術"二字有點誤導了…其實不是只工程師, 而是各大專院校教授所率領的"研究成果", research, 這部份假如能和點子合在一起, 無論是從點子發想, 想辦法和某研究成果整合在一起, 或是從某研究成果開始, 想辦法為它冠上一個創意點子, “點子 + 研究成果"應該能讓"找資金"這件事變得更容易些

  6. 如果酷比的技術真的如此之強,用在博客來的網站上應該算是用牛刀殺雞了,商品資訊的data mining跟網海比較起來是簡單太多了。

  7. To end users, search engine is a free web service. The winning factors are quickness, accuracy & simple-to-use. Nothing more, nothing less. The “intelligence" must be built within in an user-unaware way even you need the helps from users. Scupio doesn’t sound meet this criterion.

    Google’s PageRank algorithm has been recognized as a vulnerable mechanism and the results are easy to be engineered. However, Google has started building structured database, I believe they are toward to the Semantic web search. Compared with Google, Scupio is like an old school thing.

  8. Phil 說的真是不錯! 請問您現在人在台灣嗎?

    此外要跟 Mr. 6 說聲抱歉,後來的兩人聚會因為臨時有事,無法前往,不過
    剛巧我朋友居然也有去參加說。

    希望下次有機會可以多聊些:-)

  9. Vector Space Model在很早期就被用在資訊擷取之中了,已經是相當古老的技術,任何學習資訊擷取入門課程的人,一定會學到這個東西,Google和A9的personalized search早就已經把這個技術用進來了。這可不是什麼新鮮事。如果scupio花了這麼多時間還在這上面打轉的話,在搜尋這個領域未免也落後太多了點。
    另外是Reuters,不是Reuter。
    還有文中提到的準確率達到94%,據我所知,學術界的論文早就已經有人超過95了。不知道Mr. 6的數據從何而來?另一方面,這種比準確率的方式,實際上超過百分之九十的時候,已經都在統計誤差之內,拿來說嘴,其實沒有意義。

  10. 回 Joe Hsieh, 是的,在下人剛剛回到台灣一陣子,希望日後有機會與同好意見交流.

    Search這個specific topic, 其實滿有意思的. Google’s PageRank is more like a “recommendation". They rank a page by its “population" (The # of links & the “reputation" of relevant pages) – but it was the original algorithm out of Stanford. They must have something new now.

    For future search opportunity, you either go vertical markets or find out a solution to outperform Google search in every aspect.

    By the way, Wikipedia’s founder Jimmy Wales has announced an open source search engine project recently – they will likely start it this year base on San Mateo. They might become the Linux in Search industry if success.

  11. 兩三年前我就看過一篇寫LocalRank的文章,這在Florida Update之後就不斷有很多討論,大意是增加分類的權重來避免SEO的入侵,跟DMOZ也有些關係。

    vertical search這種東西很有趣,如果真的要談Web 2.0的商業機制,這玩意大概是最可以拿出來捏來捏去的。

    Jimmy Wales一直對search engine很有興趣,從之前的Bomis到現在的Wikia都是這樣。Wikia Inc.其實是個profit company,他卻把這玩意說成像Wikipedia這樣需要大眾貢獻的project,其實非常的弔詭。

    真的需要免費的search engine,Lucene就不錯了。

  12. http://www.scupio.com/
    酷比的搜尋引擎在數量跟準確度上都輸給同樣在國內的 gais, openfind 是其商業化的公司
    http://gais.cs.ccu.edu.tw

    但 openfind 無法在搜尋引擎及網站廣告上獲利, 在去年就結束並完全退出網站市場

    去年開始, 酷比積極走 Google AdWords 模式
    http://ad.scupio.com/ad_index/whattgad002.htm
    可惜名單中不少廠商已退出合作關係了

    原本無名也是跟酷比合作, 但自從無名被雅虎合併後, 搜尋引擎也換成雅虎自家了

    不知道酷比還能否在台灣這麼狹窄的市場夾縫中繼續生存

  13. 看來關於酷比,有很多其實是六先生不知道的。但也因為有了這篇文章,讓知道的讀者可以表達意見、更不知道的讀者能夠知道更多。很棒。

    其實看看openfind,就可以知道酷比。openfind也不是沒有作過關鍵字廣告。但要做的事情太難,或是選擇用困難的方法來做事,就不容易成功。

  14. 關鍵字不關鍵的原因,除了搜尋技術之外,另一個原因很可能是可供刊登的廣告則數不夠多,即使搜尋引擎夠準,但卻抓不到符合內容的廣告來刊,又不能開天窗,退而求其次的結果,讀者一樣看到不準的廣告…

    我想對酷比來說,業務問題會比技術問題更大吧。

  15. google adwords、yahoo overture、酷比 這三家我都有在用
    最進酷比點選率比平常高很多,收費驚人(主要是因為曝光量太大)
    比 yahoo overture 還要高,目前已經停掉沒在用了
    但實際上感受到的來電詢問電話卻沒有明顯增加

    也許使用者真的有點進來看,但會有消費的想法的人很少
    但 yahoo overture 明顯有效果,畢竟是關鍵字搜尋
    不太能感覺到效果還真不知道該不該繼續使用

迴響已關閉。