Archive for February, 2001

我所知道的一點 Data Mining

Friday, February 2nd, 2001
前言:Data Mining,光是看它的 data size,絕對是一頭大象。因此各家各派的對它的看法也就不同。因為各人摸到的是自己可以摸到的那一部分。兄弟雖然知道同時也極力呼籲 DM 應以實際有用為主,但基本上還是學院派。通常,學院派的人認為,如果一件事一定可以做成,那麼就不免無趣。幾十年前,我有一位朋友試著用海水提鍊鈾。因為那是用 ppm 來計算的,當然十分難。DM 有點像這類的工作,但是你不必只想造原子彈。提鍊錳、鉀、甚至淡水雖然無趣,但都頗有意義。這裡面的要點是效率。統計上所謂的大筆數據,和 DM 上所能見到的是不一樣的遊戲,因此雖然統計學者有明確的基本概念,但恐怕還是要因應變局,重新思考。反過來說,做 IT 的同仁,也不要一味相信背後邏輯不明的埋頭苦算會發現甚麼新大陸。總之,這算是新行業,大家各憑本事和運氣來博它一舖罷!

今年十二月八號,我們在蠻辛苦的籌備之後,總算把 CDMS 成立了。這是一個以Data mining (DM)為專業的人民團體。在台灣恐怕是唯一的一個。DM是一個蠻當紅的專題。我們所面臨的第一個問題,便是不知道應該怎麼去翻譯這個名詞。硬譯為「資料挖掘」雖沒有大錯,但聽起來不夠高雅,也沒有學術的味道,連商業的氣味都不夠。一時之間因為實在想不出一個好詞,只好馬馬虎虎地用著,等誰有了好譯名再說。我們想的事是把這一群人集合一下,看大家有甚麼想法,或者,更要緊地,看大冢想幹些甚麼。

  甚麼叫 DM ? (more…)