OpenAI宣布o(jì)3系列大模型:能力較o1大幅提升 Codeforces測試強(qiáng)于OpenAI首席科學(xué)家

12月21日消息,據(jù)外媒報道,在發(fā)布o(jì)1滿血版、視頻生成模型Sora等之后,OpenAI連續(xù)12天的直播活動在當(dāng)?shù)貢r間周五進(jìn)入了最后1天,他們在當(dāng)天的發(fā)布會上宣布了更強(qiáng)的o3系列人工智能模型。

同第1天、第3天和第5天的直播一樣,OpenAI CEO 薩姆·奧爾特曼(Sam Altman)也參與了他們第12天的直播,o3系列大模型也是由他在直播中宣布的。

OpenAI在9月份推出了o1系列大模型,他們周五推出o3系列,在命名上就越過了o2,沒有遵循數(shù)字一樣的連續(xù)命名方式。對于越過o2,有外媒在報道中稱可能是為了避免和英國電信運(yùn)營商O2在命名上產(chǎn)生紛爭。而在當(dāng)天的直播中,薩姆·奧爾特曼承認(rèn)了他們在命名上的不足,他表示基于OpenAI不太擅長命名的傳統(tǒng),新的大模型被命名為o3。

同9月份推出的o1系列大模型一樣,OpenAI新宣布的o3系列大模型也有o3和o3 mini兩款,不過尚未正式發(fā)布,o3 mini是預(yù)計會在明年年初發(fā)布。

在OpenAI此前推出的大模型中,能力在持續(xù)提升,新宣布的o3系列也不例外。

從OpenAI方面公布的消息來看,o3大模型在測試中的表現(xiàn)明顯強(qiáng)于他們之前推出的大模型,在部分測試中的表現(xiàn)已經(jīng)達(dá)到了人類的水平。

在ARC-AGI測試中,o3在低推理能力設(shè)置下的得分達(dá)到了75.7%,是o1的3倍,在高推理能力設(shè)置下則是高達(dá)87.5%,超過了85%的人類門檻。

在數(shù)學(xué)推理及解決問題的能力方面,o3也表現(xiàn)不俗,在2024年AIME測試中,o3的準(zhǔn)確率達(dá)到了96.7%。

在編碼和軟件工程方面,o3的能力較o1也有大幅提升,在SWE-Bench認(rèn)證中,o3的得分為71.7%,較o1提升了22.8個百分點(diǎn)。

值得注意的是,有外媒在報道中提到,在Codeforces的測試中,o3的得分為2727,比OpenAI首席科學(xué)家的得分還高。

雖然OpenAI的o3系列大模型要在明年才會正式發(fā)布,但他們在官網(wǎng)已表示,安全研究人員可以申請用于測試,從當(dāng)?shù)貢r間周五開始接受申請,截止時間為明年1月10日。

(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實(shí),并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實(shí)內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )

贊助商
2024-12-21
OpenAI宣布o(jì)3系列大模型:能力較o1大幅提升 Codeforces測試強(qiáng)于OpenAI首席科學(xué)家
在發(fā)布o(jì)1滿血版、視頻生成模型Sora等之后,OpenAI連續(xù)12天的直播活動在當(dāng)?shù)貢r間周一進(jìn)入了最后1天,他們在當(dāng)天的發(fā)布會上宣布了更強(qiáng)的o3系列人工智能模型

長按掃碼 閱讀全文