
「我們提出了一種基於樹的分類器構建方法。這種方法的容量可以任意擴展,用以提升模型在訓練數據與未見數據上的準確性。其核心思想是在特徵空間中隨機選取若干子空間,並在其中構建多棵決策樹。不同子空間中的樹彼此互補,將它們的結果組合起來即可改進分類效果。」
「結論指出,優化訓練及的準確性,和保有數據的泛化性,這兩者似乎不再是不可調和的矛盾。在隨機與秩序之間,似乎存在一條看不見的道路。」
——何天琴.隨機決策森林(1995)(註1)
XXXXXXXXXXXXXXXXXX
敗犬與灰貓在地心遊蕩著,已經不知過了多久。名為「執著」的太陽永不墜落,時間在這裡像是被刪去了所有刻度。對敗犬而言,每一口呼吸都黏稠、沉重,像是被壓縮過的夢。
忽然,眼前出現了一片茂密到無法望穿的森林。
這並非尋常的森林。
雖然這樣說聽起來很尋常:這裡的每一棵樹都在呼吸、生長與死亡——但是所有的變化都是瞬息萬變。新芽在肉眼可見的速度裡冒出,下一秒便枯萎成灰,枝幹彎折,倒塌,腐朽,成為新的養分。這些變化不是悄然無聲,而是發生在他們的眼前,宛如有人將「四季」壓縮到一瞬。
敗犬瞠目結舌,這樣的景象讓他想起數學上的「加速極限」:如果把無窮的變化壓縮在有限的時間內,會是什麼樣子?眼前的樹林正是答案——它是一部以生命為單位的快速演算法。
樹木的茂密,讓天空被徹底掩蓋,僅剩一些縫隙透入微弱的灰光。空氣裡飄散著一種潮濕的氣味,混雜著泥土、腐葉與血液般的鐵鏽味。每走一步,腳下的土地就會輕微顫動,像是整座森林在同步呼吸。
樹木茂密的程度,甚至無法找出一條穿越的路徑。
「該怎麼前進呢?」敗犬試探地伸出手,觸摸眼前的樹。他的觸碰,讓這座森林加入了新的變因,森林再度迅速地新生凋亡,眼前竟然出現一條小徑。
敗犬屏住呼吸,凝視著這場不斷輪迴的生死:「這裡是⋯⋯活的。」
灰貓看了一眼敗犬,兩人對視著點了點頭,大步邁入樹林——這是他們唯一前進的方法。
「不只是活的,這是一座隨機的森林。」密林中,灰貓觀察著樹木變化的方式:「每一棵樹都是一個決策樹,從宇宙中隨機抽取特徵,以此決定自己的生長、扭曲與死亡。」
每一棵樹,都和敗犬心目中的「樹木」有著很大的不同——說是不同都算是抬舉,根本就是荒謬。
一株像摩天大樓般筆直,但樓層之間是交錯的枝葉,像無窮迴圈的錯置城市;一株像垂死的老人,枝幹佝僂,葉片化作枯萎的手掌,緊緊攀附著泥土;還有一株根系繁複到纏繞整片土地,卻只長出一片孤零零的葉子,仿佛一個荒誕的笑話。
甚至有一株,樹幹是光滑的鏡面,反射出無窮無盡的「自己」;另一株中空如廟宇,裡頭傳來低語,像是遺落在時間裡的預言。
沒有一棵樹是相似的。而且,就在包含了敗犬和灰貓兩個複雜的自變數之後,樹木成長的方式變得更加扭曲無理。
生命在隨機森林裡面簡直就是千年一瞬,敗犬與灰貓慌忙地追逐著稍縱即逝的空地;一但他們離開原本的所在之處,該處立刻亂草叢生。
「毫無規則。」灰貓喘著氣抱怨著。
「不,你看。」敗犬指著眼前逐漸延伸的道路。無數怪異的樹木構成了綿延不絕的樹海,彼此錯雜卻又在一種更高階的秩序裡協調,像是某種宏觀的算法,替迷途者指引方向。
「但是,這真的是我們該前往的方向嗎?」灰貓懷疑。
樹影婆娑,生長與凋亡的聲音,像是一陣扭曲怪異的耳語。偶爾,一棵樹的倒塌會像巨獸的呻吟;有時,幾株同時開花,則發出細碎的脈動聲,像萬人同時低吟祈禱。
敗犬覺得這片森林像是在跟他對話。只是他聽不懂。
再這樣下去不行,我必須跟樹林說話。他停下了腳步,從背後抽出吉他。
敗犬手握彈片,彈出一串8 beats的power chord,低聲唱著絕望者在密林中追求少女的歌曲——A Forest(註2):
The girl was never there
It’s always the same
I’m running towards nothing
Again and again and again and again…
這些嶄新的人為干預,讓最近的幾株枯木自燃、倒下,為他們清理出一條筆直的道路。灰貓也彈起低音提琴,walking bass的低頻震動使得一些枝葉自動裂開,鋪展成軌跡。
「和弦組成的形式就是特徵。」敗犬領悟到物理世界中各種元素的「組成」對決策模型的意義:「但是和弦行進的方式才是決策的方向。」
在地心的世界裡面,音樂是扭曲信息場的武器——敗犬終於明白,為何他身上會揹著一把吉他。
灰貓彈奏著低音提琴,堅強而穩定的bass line為敗犬的power chord增強了特徵。敗犬唱著來自1980年怪胎合唱團的歌詞,那是孤單之人的心聲。
一句一句詩人的嘆息,化作token,成為隨機森林變異的方向。
樹林按照著敗犬的意志強行凋亡、生長。
他們果然闖出了一條路。
然而,隨著干預增加,森林開始失衡:那些怪誕多樣的樹木變得單調,反覆長出同樣的枝幹與葉片,像是被迫複製的模板。這條由音樂造就的道路異常狹窄,周圍的樹木愈來愈畸形,像一個失敗的模型。
敗犬停下了手,心頭一陣不安:「這條路並不自然,只是反映了我的期待。」
「我們似乎削弱了森林的泛化(註3)。」灰貓皺著眉,緩緩地說:「當我們強迫它服從我們的規則,它就只能生成一個狹窄而畸形的模型,無法再看見宇宙的全貌。」
兩人對望片刻,默契地同時收起樂器。
隨著音波消失,森林逐漸恢復了混亂卻壯麗的自生長。新的樹木冒出、死亡、崩塌、再度繁衍。道路也不再筆直,而是充滿了轉折與迷宮般的錯綜複雜。
這樣的坎坷蜿蜒,讓敗犬想起了自己的一生。
他的數學研究,像是在建一棵單一的決策樹。每一次失敗,都是因為樹太過特化,無法看見整體的規律。這片森林提醒他:宇宙的規律沒有單一答案,而在於無數隨機變化的組合。
「這座森林,生長自宇宙的樣貌,不是我們能夠控制的。」灰貓長嘆一口氣:「看來我們只能聽從宇宙的聲音。」
「我們從來不是開路者,」敗犬默然地附和:「而是走路的人。」
敗犬停頓了一下:這才是理解宇宙的方法,不是改變它,而是跟隨它。曾經自己似乎很在乎某一種理論,但是如今。
如今一切都不再重要。
踏入此門者,放棄一切希望——他記得電梯上的操作指引。
他們並肩走入森林深處。腳下的道路隨時改變,但奇異的是,無論轉折多少,森林總會在關鍵時刻裂開一道縫隙,讓他們得以前行。
「隨機,卻又必然。」敗犬喃喃自語,感到一股既荒謬又真實的安慰:
「命運啊,命運。」
敗犬與灰貓,在森林中蹣跚地前進著(或許只能說,移動著)。遠方,隨機的森林依舊不停地變化,像是宇宙的回響。
然後,他們看到了一個巨大的棋盤。
一個星羅密布的棋盤。
(待續)
註1:何天琴.隨機決策森林
何天琴(Tin Kam Ho)是一位華裔美籍計算機科學家,她於 1995 年在貝爾實驗室首次提出「隨機決策森林」(Random Decision Forests)。該方法透過在隨機特徵子空間中構建多棵互補的決策樹,將它們的預測整合後,可有效提高分類模型對未見資料的泛化能力。
註2:A Forest
來自英國另類搖滾樂團:怪人合唱團(the Cure)。A Forest是該樂團第一首成名曲,發表於1980年。
註3:泛化(generalization)
在機械學習中,泛化是指模型不只在訓練資料上表現良好,還能在未見過的新資料上維持準確性。若模型過度依賴訓練資料,便會「過擬合」,失去泛化能力;好的模型則能抓住資料背後的普遍規律。