燒腦奧數(shù),訊飛星火X1和DeepSeek能做對(duì)幾道?

3月3日,訊飛星火深度推理大模型X1升級(jí)了,科大訊飛官方宣稱,星火X1在完全采用國(guó)產(chǎn)算力訓(xùn)練的前提下,以70B參數(shù)量,實(shí)現(xiàn)了在數(shù)學(xué)能力上全面對(duì)標(biāo)DeepSeek R1(參數(shù)量671B)和OpenAI o1,中文數(shù)學(xué)任務(wù)全面領(lǐng)先的效果。這次升級(jí)的效果如何?下面通過對(duì)10道燒腦奧數(shù)題的解答,或許會(huì)給我們一個(gè)答案。

這里需要指出的是,和過去人們熟知的大語言模型相比,深度推理模型著重強(qiáng)化了模型在邏輯推理、因果推斷以及結(jié)構(gòu)化知識(shí)應(yīng)用的能力,尤其在數(shù)學(xué)問題、代碼生成以及科學(xué)推理等方面更具優(yōu)勢(shì)。

簡(jiǎn)單來說,深度推理模型更切近人類的思考過程,在生成回答時(shí)更強(qiáng)調(diào)邏輯和推理,能夠給出明確的思考路徑,大大減少過去大語言模型“已讀亂回”的現(xiàn)象,更能應(yīng)用于教育、醫(yī)療乃至科研等剛需場(chǎng)景。

題目1:

有一個(gè)三位數(shù),它的個(gè)位數(shù)字與百位數(shù)字的和是10,且這個(gè)三位數(shù)能被它的各位數(shù)字之和整除,這個(gè)三位數(shù)可能是多少?

星火X1給出的答案:

DeepSeek給出的答案:

完美,兩款大模型回答的相當(dāng)?shù)轿?。相?duì)說,星火X1給出的解題過程更詳細(xì),更直觀,更易理解,能明白這道題為什么要這么做,為什么會(huì)得出這樣的答案。而DeepSeek給出的更簡(jiǎn)潔。

題目2:

有一個(gè)數(shù)列,前兩項(xiàng)是1和1,從第三項(xiàng)開始,每一項(xiàng)都是前兩項(xiàng)的和。請(qǐng)問這個(gè)數(shù)列1的第8項(xiàng)是多少?

星火X1給出的答案:

DeepSeek給出的答案:

厲害,星火X1一開始指出了這是一個(gè)斐波那契數(shù)列,并一如繼往,在給出正確答案的同時(shí)也給出了詳細(xì)的解題過程,DeepSeek則依然我行我素,答案給你,要想知道解題,對(duì)不起,請(qǐng)繼續(xù)翻閱我的思維腦電波。

題目3:

在一個(gè)正方形內(nèi)接一個(gè)等邊三角形,使得等邊三角形的一個(gè)頂點(diǎn)在正方形的一個(gè)頂點(diǎn)上,另外兩個(gè)頂點(diǎn)在正方形的邊上。請(qǐng)問這個(gè)等邊三角形的邊長(zhǎng)與正方形的邊長(zhǎng)之比是多少?

星火X1給出的答案:

DeepSeek給出的答案:

不錯(cuò),不錯(cuò)!這次DeepSeek總算大發(fā)慈悲,附上了解題過程,而且答案也正確,只是美中不足的是,它沒有像星火X1那樣,對(duì)最后帶根號(hào)的減法做進(jìn)一步運(yùn)算,因此給出的答案正確但不明晰。

題目4:

有一個(gè)分?jǐn)?shù),分子與分母的和是100,如果分子加23,分母加37,得到的新分?jǐn)?shù)約分后是2/3,請(qǐng)問原來的分?jǐn)?shù)是多少?

星火X1給出的答案:

DeepSeeK給出的答案:

這一次兩大模型給出的解題過程、答案同樣完美,可以說是不分伯仲,并駕齊驅(qū)。

題目5:

書架分上、中、下三層,一共分放192本書?,F(xiàn)在從上層取出與中層同樣多的書放到中層,再?gòu)闹袑尤〕雠c下層同樣多的書放到下層,最后從下層取出與上層剩下的本數(shù)同樣多的書放到上層,這時(shí)三層所放的書本數(shù)相同。問這個(gè)書架的上、中、下三層原來各有多少本書?

星火X1給出的答案:

DeepSeek給出的答案:

又都對(duì)了!看來解答這種難度一般的奧數(shù)題對(duì)兩大模型來說簡(jiǎn)直就是小菜一碟,要想探出真本事,不上點(diǎn)硬菜簡(jiǎn)直不行。下面仍然是奧數(shù)題,不過,難度成幾何式增長(zhǎng),因?yàn)樗鼈儊碜?024年全國(guó)中學(xué)生數(shù)學(xué)奧林匹克競(jìng)賽(預(yù)賽)暨2024年全國(guó)高中數(shù)學(xué)聯(lián)合競(jìng)賽(一試)試卷。

題目6:

星火X1給出的答案:

DeepSeek給出的答案:

第N次全對(duì),看來在類人思考的加持下,天下已經(jīng)沒多少難題能難住深度推理大模型了。

題目7:

星火X1給出的答案:

DeepSeek給出的答案:

還能說什么,兩款大模型又做對(duì)了。

題目8:

星火X1給出的答案:

DeepSeek給出的答案;

就問你服不服!這道在2024年全國(guó)中學(xué)生數(shù)學(xué)奧林匹克競(jìng)賽(預(yù)賽)暨2024年全國(guó)高中數(shù)學(xué)聯(lián)合競(jìng)賽(一試)試卷中分值16分的題竟然在不到1分鐘的時(shí)間里,被星火X1和DeepSeek雙雙拿下,兩款深度大模的數(shù)學(xué)能力可見一斑。

題目9:

星火X1給出的答案:

DeepSeek給出的答案:

該題在試卷中的滿分是20分,通常來說,數(shù)學(xué)題的分?jǐn)?shù)設(shè)置越高,也意味著該題的難度系數(shù)越大,這一點(diǎn),從星火X1和DeepSeek思考用時(shí)中也很容易看出來。在解答該題以前的問題時(shí),兩大模型用時(shí)最多不超過100多秒,而這道題,星火X1用時(shí)487秒種,DeePseek用時(shí)409秒,雙雙超過了6分鐘,足見該題很燒CPU。

不過,從結(jié)果來看,令人滿意,星火X1回答正確,并且解題過程縝密、清晰,DeepSeek有時(shí)會(huì)在最后的一步計(jì)算算錯(cuò)了,而這種計(jì)算,原本是一般的初中生就能輕松做對(duì)的。

題目10:

星火X1給出的答案:

DeepSeek給出的答案:

這同樣是一道滿分為20分的高難度題。星火X1和DeepSeek同樣耗費(fèi)了6分鐘以上的時(shí)間去思考,但最終的結(jié)果都不理想。該題的正確答案是t的區(qū)間大于等于3\2且小于等于2。

小結(jié):

通過上面10道題的小測(cè)試,我們不難發(fā)現(xiàn),相比于傳統(tǒng)的大語言模型,星火X1和DeepSeek在數(shù)學(xué)能力方面有了質(zhì)的飛躍。尤其是科大訊飛星火深度大模型X1,10道題僅錯(cuò)了一題,同時(shí)解題過程明晰、詳細(xì),整體表現(xiàn)不俗。

而DeepSeek雖然在最后一題上和星火X1同樣折戟,且在第九題的計(jì)算上出現(xiàn)了失誤,有時(shí)解題過程也會(huì)出現(xiàn)敷衍了事的情況,但瑕不掩瑜,其在思考用時(shí)方面往往略優(yōu)于星火X1。

DeepSeek最大問題的不在于其解題準(zhǔn)確度,而在于服務(wù)器的吞吐能力,在使用的過程中,我們時(shí)常會(huì)悲哀地發(fā)現(xiàn),屏幕上又出現(xiàn)了“服務(wù)器繁忙,請(qǐng)稍后再試”的提示,一個(gè)問題往往需要輸入幾次甚至幾十次才能解答成功,極大地耗費(fèi)了時(shí)間、精力,影響了心情和使用體驗(yàn)。

“路漫漫其修遠(yuǎn)兮,吾將上下而求索”,通用人工智能和深度推理大模型方興未艾,目前不過是小荷才露尖尖角,萬里長(zhǎng)征走完了第一步,未來一年,十年人工智能究竟能發(fā)展到哪一步,拭目以待。

(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )