機器學習協助數學解謎?

這篇文章想寫蠻久了,很想分享一篇之前在Nature讀到的論文:Advancing mathematics by guiding human intuition with AI

雖然機器學習(machine learning)在各個科學領域帶來新發現已經不是新鮮事,但這篇帶來的震撼,與其他論文相較起來,有點與別不同。雖然論文是數學方面的研究,但我認為對其他科學領域也有相當大的啟示。

大部分運用機器學習的研究,都在一定假設下,發現數據之間的規律。例如在表觀遺傳學領域,有一個常用作把cis-elements分類的工具「ChromHMM」[1],就是利用DNA上不同的表觀遺傳標記來判別該區域屬於哪種element(例如是promoter還是enhancer?)。而當中的假設,即「表觀遺傳標記的不同組合與cis-element類別有關」,是由科學家由先前研究的結論而推敲出來的新假設,再讓模型學習,看看是否能根據資料特性(即表觀遺傳標記的不同組合)來預測分類。

ChromHMM 原理簡化示意圖,深綠色表示DNA區域富含該種表觀遺傳學標記

而這次的論文大膽認為,這一步由科學家推敲假設(傳統被認為是人類創意的產物而非單純運算)的過程,也可以讓機器學習協助。

作者先以「歐拉公式(Euler’s formula)」(凸多面體定理)為例來說明論文的邏輯。歐拉在研究凸多面體特性時發現,「頂點(vertices,V)、邊(edges,E)、面(faces,F)」三者的數目互有關聯,用數學式表達則是:

V-E+F=2

即頂點數目減去邊的數目,再加上面的數目必為2。數學家推敲定理的過程,常常先從簡單例子著手,初步發現規律後,再從更複雜例子驗證規律是否正確。若規律不正確,則再重新由簡單例子推敲規律。這循環可簡化成下圖:

數學家研究新規律時的思考步驟(原圖來自Nature

論文作者於是認為,找出規律/假設的步驟,其實與機器學習模型的學習過程有共通之處(下圖),於是提出:推敲假設(=人類數學靈感)的步驟是否可由機器學習協助?

利用機器學習找出可能的數學關係(改編自Nature及原論文)

作者於是應用此想法,結合尋找對預測結果重要的特徵量的方法(attribution methods),結果在拓撲學的紐結理論(knot theory)和抽象代數的表示論(representation theory)中都找到前人未曾發現的新數學關係。作者形容此方法為「數學靈感的實驗場(test bed for intuition)」。

論文作者提出相當重要的一點是,機器學習除了可找出像歐拉公式般的線性關係外,亦有能力找出非線式關係(non-linear relationships / functions),而這正正是人類相對較弱的。本文正是利用neural network,結合大量測試數據和attribution methods,而在複雜的數學領域找到新的發現。由此我也期待生物領域也能應用此想法,而找到更多前人未曾考慮過的新發現。


參考資料

  1. Ernst, J. & Kellis, M. Chromatin-state discovery and genome annotation with ChromHMM. Nat Protoc 12, 2478–2492 (2017).
  2. Davies, A. et al. Advancing mathematics by guiding human intuition with AI. Nature 600, 70–74 (2021).

Leave a Reply

Discover more from BIOLOGIST J

Subscribe now to keep reading and get access to the full archive.

Continue reading