AI 基準測試組織因延遲揭露 OpenAI 資助而遭受批評:FrontierMath 的爭議與反思

隨著人工智慧(AI)研究持續快速演進,各式各樣的基準測試(benchmark)也如雨後春筍般推出,幫助研究人員與開發者評估模型在不同領域的能力。然而,近期有一個關於數學基準測試的爭議,再次凸顯了「資金來源」與「客觀性」之間的微妙平衡。

事件背景

1 月 19 日,TechCrunch 的記者 Kyle Wiggers 報導指出,專門開發 AI 數學測驗基準的組織 Epoch AI,在資金來源方面並未及時向外界揭露自己收到了 OpenAI 的資助,一直到 2024 年底、甚至是 2025 年才陸續對外公開此訊息。Epoch AI 是一家非營利組織,其主要經費來自研究與補助機構 Open Philanthropy。該組織在去年推出了一套名為 FrontierMath 的測驗,用於測試 AI 是否能通過「專家級」的數學題目。

FrontierMath 這套測驗顯然深受矽谷和 AI 社群的關注,因為 OpenAI 就曾利用這個測驗對外展示自家最新旗艦 AI 系統 o3 的能力。然而,直到 2024 年 12 月 20 日,Epoch AI 才在一篇公告中透露 OpenAI 為 FrontierMath 的開發提供了資助,並擁有對 FrontierMath 題目與解答的可見度。

「資訊不透明」引發的爭議

在知名理性思考與 AI 安全論壇 LessWrong 上,一位名為「Meemi」的 Epoch AI 合約人員發文表示,許多參與 FrontierMath 題目編寫與貢獻的成員,並不知情 OpenAI 與該測驗的關係,甚至到了官方正式宣布後才知道。由於 FrontierMath 先前一直標榜其獨立、客觀性,此事讓部分 AI 社群人士質疑,是否因為拿到 OpenAI 資金,Epoch AI 並未及時釐清與 OpenAI 的合作關係,以避免外界產生利益衝突的觀感。

關鍵批評包括:

  • 缺乏透明度:貢獻者認為,若提早得知 OpenAI 有參與資助,部分人可能會重新考量是否要提供 FrontierMath 題目或解答。
  • 客觀性與公正性疑慮:因為 OpenAI 擁有事先可見測驗內容的特權,讓 FrontierMath 成為「可被針對」的評估依據,進而影響測驗的客觀可信度。

一位史丹佛數學博士生 Carina Hong 也在她的 X(前身為 Twitter)貼文中指出,她訪談了至少六位曾為 FrontierMath 寫題目的數學家,其中多數人在得知「OpenAI 獨家且先行」的使用權後,都對自己是否會繼續參與此專案產生懷疑。

Epoch AI 與 OpenAI 的回應

Epoch AI 聯合創始人 Tamay Besiroglu

在 LessWrong 上,Epoch AI 的副主任兼聯合創始人 Tamay Besiroglu 回覆了外界的質疑。他坦言,組織在資金與合作伙伴的揭露上確實「犯了錯誤」,並表示:

「我們被限制在 o3 上市前,尚未能公開此合作細節。事後回頭看,我們應該更早且更積極地溝通,以確保題目的貢獻者都能清楚知道可能的用途。」

他同時強調,OpenAI 雖然對 FrontierMath 有事前可見度,但雙方也有「口頭協議」保證不會將 FrontierMath 直接用於模型的訓練集(避免出現「先學答案」的問題),並且 Epoch AI 在系統內部也另行維護了一套「保留測試題庫」,以確保最終測驗結果的客觀性,避免外界質疑數據造假。

Epoch AI 主導數學家 Elliot Glazer

Epoch AI 的首席數學家 Elliot Glazer 在 Reddit 上表示,目前該組織還沒有獨立驗證 OpenAI 在 FrontierMath 測驗上所公布的分數。雖然他個人相信 OpenAI 所公布的成績是實打實的,但仍需等待獨立評估結束後才能正式背書。

從利益衝突到產業常態?

可以預見的是,這起風波再度凸顯了 AI 發展過程中,衡量客觀性和資金需求的兩難。對於類似 FrontierMath 這樣的高難度基準測試專案,需要大量專業人員與經費的投入。當資金大多來自產業龍頭,如 OpenAI、Google、Meta 等,就難免會引發「測驗題庫是否會成為特定企業優勢」的疑慮,而這些企業是否會「預先為測驗進行最佳化」也一直是外界討論的焦點。

數學基準測試與 AI 研究的重要性

為何數學基準測試這麼受到矚目?

  • 代表模型的推理與邏輯能力:數學測驗不僅考驗記憶力,更需要複雜推理、問題分解與抽象化的能力。
  • 指標性應用:在許多應用場景(例如金融分析、醫學統計、自然科學研究)都需要嚴謹的運算與邏輯推理。
  • 容易驗證客觀性:相較於語言翻譯、文本理解等有時帶有主觀判定的任務,數學題目更能「正確就是正確,錯誤就是錯誤」。因此在學術與研究社群一直被視為 AI 進展的具體指標。

然而,要開發真正客觀、有效的基準測試並不容易:需要龐大的題庫、可靠的出題者,以及對不同 AI 模型提供客觀而一致的測試環境。一旦產業金主或研究單位先知道題目或擁有特權,客觀性就可能被削弱,甚至變成「為考試而練習」,這對 AI 的實際進步與評估其真實能力並無太大幫助。

觀察與結語

我認為 FrontierMath 的爭議很可能只是 AI 研究路上一連串挑戰的縮影。許多高階 AI 模型的研發,往往需要來自大財團或特定機構的巨額投資;基準測試與研究組織,在金流、協議與揭露資訊的方式上,需要更完善且透明的規範,才能兼顧學術誠信與實際的發展需求。

面對外界的質疑,Epoch AI 雖然表示將推出更嚴謹的保留測試集,並承諾不會讓 OpenAI 把 FrontierMath 當作訓練素材,但未來仍須持續觀察看是否能贏回社群的信任。對於參與其中的數學專家與研究人員而言,若資助方來自訓練模型的同一個廠商,或許也必須在簽訂合約之初就要求「明確揭露」,並且確保有足夠的自主權與審查機制。

參考來源