AI 基準測試組織因延遲揭露 OpenAI 資助而遭受批評:FrontierMath 的爭議與反思

AI 基準測試組織因延遲揭露 OpenAI 資助而遭受批評:FrontierMath 的爭議與反思 隨著人工智慧(AI)研究持續快速演進,各式各樣的基準測試(benchmark)也如雨後春筍般推出,幫助研究人員與開發者評估模型在不同領域的能力。然而,近期有一個關於數學基準測試的爭議,再次凸顯了「資金來源」與「客觀性」之間的微妙平衡。 事件背景 1 月 19 日,TechCrunch 的記者 Kyle Wiggers 報導指出,專門開發 AI 數學測驗基準的組織 Epoch AI,在資金來源方面並未及時向外界揭露自己收到了 OpenAI 的資助,一直到 2024 年底、甚至是 2025 年才陸續對外公開此訊息。Epoch AI 是一家非營利組織,其主要經費來自研究與補助機構 Open Philanthropy。該組織在去年推出了一套名為 FrontierMath 的測驗,用於測試 AI 是否能通過「專家級」的數學題目。 FrontierMath 這套測驗顯然深受矽谷和 AI 社群的關注,因為 OpenAI 就曾利用這個測驗對外展示自家最新旗艦 AI 系統 o3 的能力。然而,直到 2024 年 12 月 20 日,Epoch AI 才在一篇公告中透露 OpenAI 為 FrontierMath 的開發提供了資助,並擁有對 FrontierMath 題目與解答的可見度。 「資訊不透明」引發的爭議 在知名理性思考與 AI 安全論壇 LessWrong 上,一位名為「Meemi」的 Epoch AI 合約人員發文表示,許多參與 FrontierMath 題目編寫與貢獻的成員,並不知情 OpenAI 與該測驗的關係,甚至到了官方正式宣布後才知道。由於 FrontierMath 先前一直標榜其獨立、客觀性,此事讓部分 AI 社群人士質疑,是否因為拿到 OpenAI 資金,Epoch AI 並未及時釐清與 OpenAI 的合作關係,以避免外界產生利益衝突的觀感。 ...

2025/01/22 15:28 · 1 min · 192 words · Danny H.

ChatGPT 新增提醒與重複任務功能

OpenAI 宣布,其 ChatGPT 現已推出測試版的新功能「任務」(Tasks),讓付費用戶能設定提醒或重複性請求。這項功能本週將開始逐步向 ChatGPT Plus、Team 與 Pro 用戶全球推出。 任務功能簡介 透過任務功能,用戶可以讓 ChatGPT 設定簡單的提醒,例如:「提醒我六個月後我的護照會到期。」AI 助理會在用戶啟用任務功能的平台上發送推送通知。此外,用戶還可設定重複性請求,例如:「每週五根據我的位置和天氣預測提供週末計劃」或「每天早上 7 點提供新聞簡報」。 圖片來源:OpenAI 這項功能標誌著 OpenAI 在 AI 代理(agentic system)領域的第一步。OpenAI CEO Sam Altman 表示,2025 年將是 AI 代理的重要一年,並預言這些代理將在今年「加入工作隊伍」。雖然任務功能目前的範圍有限,但它為用戶提供了如同 Siri 和 Alexa 等助理具備的基本提醒功能,同時展示了其他數位助理尚未具備的新能力。 如何使用任務功能 用戶可以在 ChatGPT 的下拉選單中選擇「4o with scheduled tasks」進入任務功能。接著,只需向 AI 助理發送訊息,說明希望設定的提醒或動作。某些情況下,ChatGPT 可能會根據聊天內容建議設定相關任務。用戶也可以透過任何平台的聊天界面或網頁版專屬的「任務管理」標籤管理這些任務。 雖然 ChatGPT 可以按排程瀏覽網頁,但它目前不會執行連續背景搜索,也無法進行購物。舉例來說,用戶可以指示 ChatGPT 每月查詢一次是否有喜愛歌手的演唱會門票,但無法即時提醒門票開賣,也無法自動購買票券。 未來展望與挑戰 這次測試版的推出,將幫助 OpenAI 了解用戶如何使用任務功能,進而為功能全面向行動應用程式與免費層用戶推出做好準備。目前,此功能不支援「進階語音模式」設定任務。 OpenAI 同時正準備推出更高階的代理系統,包括代號為 Operator 的系統。據報導,這項系統將具備寫程式碼和預訂行程等能力,並可能在未來幾週內發布。 然而,隨著更進階的代理系統逐步推出,潛在問題也會浮現。儘管任務功能展現了受控的代理能力範圍,未來 OpenAI 的安全措施將面臨更大的考驗。 總結 ChatGPT 的任務功能為 AI 助理帶來更多實用性,並為未來更複雜的 AI 代理系統鋪路。作為測試版,任務功能展現了 AI 在日常生活中的嶄新可能性,未來將有更多進階功能等待用戶探索。 ...

2025/01/15 10:31 · 1 min · 69 words · Danny H.