BIOLOGIST J

evolutionary & developmental biology, bioinformatics, and other thoughts

機器學習協助數學解謎？

Feb 4

這篇文章想寫蠻久了，很想分享一篇之前在Nature讀到的論文：Advancing mathematics by guiding human intuition with AI

雖然機器學習（machine learning）在各個科學領域帶來新發現已經不是新鮮事，但這篇帶來的震撼，與其他論文相較起來，有點與別不同。雖然論文是數學方面的研究，但我認為對其他科學領域也有相當大的啟示。

大部分運用機器學習的研究，都在一定假設下，發現數據之間的規律。例如在表觀遺傳學領域，有一個常用作把cis-elements分類的工具「ChromHMM」^[1]，就是利用DNA上不同的表觀遺傳標記來判別該區域屬於哪種element（例如是promoter還是enhancer？）。而當中的假設，即「表觀遺傳標記的不同組合與cis-element類別有關」，是由科學家由先前研究的結論而推敲出來的新假設，再讓模型學習，看看是否能根據資料特性（即表觀遺傳標記的不同組合）來預測分類。

ChromHMM 原理簡化示意圖，深綠色表示DNA區域富含該種表觀遺傳學標記

而這次的論文大膽認為，這一步由科學家推敲假設（傳統被認為是人類創意的產物而非單純運算）的過程，也可以讓機器學習協助。

作者先以「歐拉公式（Euler’s formula）」（凸多面體定理）為例來說明論文的邏輯。歐拉在研究凸多面體特性時發現，「頂點（vertices，V）、邊（edges，E）、面（faces，F）」三者的數目互有關聯，用數學式表達則是：

$V-E+F=2$

即頂點數目減去邊的數目，再加上面的數目必為2。數學家推敲定理的過程，常常先從簡單例子著手，初步發現規律後，再從更複雜例子驗證規律是否正確。若規律不正確，則再重新由簡單例子推敲規律。這循環可簡化成下圖：

數學家研究新規律時的思考步驟（原圖來自Nature）

論文作者於是認為，找出規律／假設的步驟，其實與機器學習模型的學習過程有共通之處（下圖），於是提出：推敲假設（＝人類數學靈感）的步驟是否可由機器學習協助？

利用機器學習找出可能的數學關係（改編自Nature及原論文）

作者於是應用此想法，結合尋找對預測結果重要的特徵量的方法（attribution methods），結果在拓撲學的紐結理論（knot theory）和抽象代數的表示論（representation theory）中都找到前人未曾發現的新數學關係。作者形容此方法為「數學靈感的實驗場（test bed for intuition）」。

論文作者提出相當重要的一點是，機器學習除了可找出像歐拉公式般的線性關係外，亦有能力找出非線式關係（non-linear relationships / functions），而這正正是人類相對較弱的。本文正是利用neural network，結合大量測試數據和attribution methods，而在複雜的數學領域找到新的發現。由此我也期待生物領域也能應用此想法，而找到更多前人未曾考慮過的新發現。

參考資料

Ernst, J. & Kellis, M. Chromatin-state discovery and genome annotation with ChromHMM. Nat Protoc 12, 2478–2492 (2017).
Davies, A. et al. Advancing mathematics by guiding human intuition with AI. Nature 600, 70–74 (2021).

機器學習協助數學解謎？

Share this:

Like this:

Leave a ReplyCancel reply

Discover more from BIOLOGIST J