亚洲第七色,国产精品亚洲精品久久国语,中国japanese漂亮丰满,丁香丝袜,国产卡一卡二卡三无线乱码新区

您的位置:首頁(yè) >綜合 > 市場(chǎng) >

即時(shí):人類的考試,考驗(yàn)不了AI了

2017年5月,當(dāng)時(shí)世界圍棋排名第一的柯潔慘敗于AlphaGo,在機(jī)器是否會(huì)比人類更聰明這個(gè)事關(guān)全人類尊嚴(yán)的問(wèn)題上,我們第一次有了一個(gè)確定性的答案。


(資料圖片僅供參考)

一年前尚且能贏一局的李世石,成為人類棋手在AI面前最后的夕陽(yáng)。

不過(guò),人類善于尋找理由,比如將智力轉(zhuǎn)換為更復(fù)雜且難以解釋的“智慧”,那就顯得我們還在贏,還有是更“高級(jí)的”贏法。而且作為在智慧這條路徑上的先行者,人類可以既做選手又做裁判,給出一套套的測(cè)試標(biāo)準(zhǔn),美其名曰測(cè)試AI,AI超過(guò)了人類水平,那是人類推動(dòng)的科技進(jìn)步,AI沒(méi)有超過(guò)人類,那人類再次贏贏贏。

但“青出于藍(lán)而勝于藍(lán)”這件事,雖然人類希望AI快點(diǎn)做到,可當(dāng)快到像迎面而來(lái)的一陣冰雹猛地砸到臉上時(shí),絕大多數(shù)人還是會(huì)不適應(yīng)到懵逼。

最初,我們輕松地用游戲來(lái)測(cè)試AI,現(xiàn)在,人類能參與地最難的考試,也即將無(wú)法用來(lái)考驗(yàn)AI了。

在一個(gè)周前,馬斯克發(fā)布了最新版的Grok-4,這款大模型,用老馬的話來(lái)說(shuō),“比所有領(lǐng)域的博士都聰明”。

而其在各項(xiàng)考試中的成績(jī),可以說(shuō)是怪物般的存在:

我們比較熟悉的SAT和GRE考試幾乎滿分,不太熟悉但更難的考試,GPQA(研究生水平問(wèn)答)準(zhǔn)確率為88.9%,AIME25(美國(guó)數(shù)學(xué)邀請(qǐng)賽)準(zhǔn)確率為100%,USAMO25(美國(guó)數(shù)學(xué)奧林匹克競(jìng)賽)準(zhǔn)確率為61.9%。

最引人注目的是“人類最后的考試”(Humanity’s Last Exam,簡(jiǎn)稱“HLM”),聽(tīng)這個(gè)名字,大家就能知道它代表的意思。

這個(gè)考試是由 Scale AI 和 Center for AI Safety(CAIS)發(fā)布的,包含3000個(gè)高難度的問(wèn)題,涉及超過(guò)100個(gè)學(xué)科,題目來(lái)自數(shù)百位不同領(lǐng)域的專家,可以說(shuō),這套試題涵蓋了人類智力任務(wù)中最具挑戰(zhàn)性的部分,足以用來(lái)衡量AI是否具備“類人智能”。

其中題目分為兩類,一類是簡(jiǎn)答題(Exact-Match Questions),需要輸出一個(gè)完全匹配的字符串作為答案,另一類是選擇題(Multiple-Choice Questions),需要從五個(gè)或更多選項(xiàng)中選擇一個(gè)正確答案。

不過(guò),前者占到了80%,而且數(shù)學(xué)相關(guān)的題目占到了全部問(wèn)題的42%,所以不要指望碰運(yùn)氣能刷出高分。

來(lái)自題庫(kù)的題目之一,感受一下無(wú)知的痛苦吧

據(jù)說(shuō),以普通人的水平,大概能答對(duì)5%的題目,而當(dāng)時(shí)的大模型也紛紛折戟,沒(méi)有一個(gè)能超過(guò)10%。你問(wèn)人類最多能打多少分?這不重要,反正題目也是人類出的。

但Grok-4的出現(xiàn),卻讓AI通過(guò)“人類最后的考試”的時(shí)間大大縮短了,達(dá)到了50.7%的準(zhǔn)確率,成為首個(gè)突破50%的大模型。

這個(gè)分?jǐn)?shù),高的驚人,但因?yàn)榭荚嚨碾y度過(guò)大,距離大家的生活又太遠(yuǎn),所以很難直觀的說(shuō)明有多難得,不過(guò)好在,后來(lái)筆者找到了一個(gè)差不多所有中國(guó)人都能理解的參考系。

在Grok-4發(fā)布的差不多同一時(shí)間,上海交大聯(lián)合深勢(shì)科技團(tuán)隊(duì),使用 DeepSeek-R1-0528 作為驅(qū)動(dòng)智能體的推理模型,在“人類最后的考試”上拿下了32.1%的新紀(jì)錄,可以說(shuō)代表著國(guó)內(nèi)大模型的最高水平。(雖然立刻就被趕超了)

而大概一兩周之前,國(guó)內(nèi)的大模型正在集體測(cè)試另一套“國(guó)民考試”——高考試題。

比如,字節(jié)跳動(dòng) Seed 團(tuán)隊(duì)就用最新推出的通用模型 Seed1.6 對(duì)2025年山東卷高考真題(題目源自網(wǎng)絡(luò))進(jìn)行測(cè)試,語(yǔ)數(shù)外采用新課標(biāo)全國(guó)Ⅰ卷,其余科目為山東省自主命題,滿分750分,并找來(lái)了兩位來(lái)自重點(diǎn)高中、有聯(lián)考判卷經(jīng)驗(yàn)的高中老師進(jìn)行匿名評(píng)估和多輪質(zhì)檢。

最終, Seed1.6 在理科和文科分別考取了648和683的高分,這個(gè)分?jǐn)?shù)在山東省分別是4005名和211名,理科成績(jī)可以沖擊武漢大學(xué),穩(wěn)妥些也能去華中科技大學(xué);而文科成績(jī),更是有把握沖擊清北,保底也能去上海交大和復(fù)旦大學(xué)。作為參照的 DeepSeek-R1-0528 ,理科和文科分別考取了615和631,上到985(個(gè)別名校除外)下到211也是選擇多多。(排名信息及志愿推薦來(lái)源:中國(guó)教育在線)

也有媒體用國(guó)產(chǎn)大模型測(cè)試了下高考遼寧卷,顯示騰訊元寶(混元T1)文科卷的分?jǐn)?shù)還要更勝一籌,筆者查詢了下,其文科成績(jī)排到了全省第11名,屬于是清北招生辦爭(zhēng)相打電話,理科成績(jī)就遜色多了,但上個(gè)985還是沒(méi)問(wèn)題的。至于DeepSeek,大致是沖擊985保底211的水平。

所以,以高考試卷為標(biāo)準(zhǔn),那么DeepSeek和豆包、混元間幾十分的差距,是考上985和考上清北的差距;而以HLM為標(biāo)準(zhǔn),DeepSeek和 Grok-4 差了接近40%的分值……

“比所有領(lǐng)域的博士都聰明”的真假還不確定,但在剛剛高考完的這一屆高三考生中,文科成績(jī)能超過(guò)AI的真的不多了。也許下一年,大模型們的高考成績(jī),就要徹底吊打人類考生了,能考上清北的人被稱為天才,但天才努力跨過(guò)的門檻,只是AI的保底志愿。

但我更傾向于認(rèn)為,就像人們對(duì)AI在圍棋領(lǐng)域?qū)θ祟惖哪雺涸贌o(wú)興趣一般,高考,還有其他人類能參與的考試,包括“人類最后的考試”,最終都會(huì)呈現(xiàn)AI一邊倒的絕對(duì)優(yōu)勢(shì),以至于讓人習(xí)以為常。

 可能到時(shí)候,人類會(huì)制定新的考試,但不再考慮將人類和AI進(jìn)行對(duì)比,而是AI之間純粹的競(jìng)賽;也可能將不存在這樣的考試或者變得很少,人們將更關(guān)注AI的應(yīng)用落地和性價(jià)比,畢竟人類也好,AI也好,考試都只是過(guò)程之一,創(chuàng)造出價(jià)值才是最終的目的和結(jié)果。

不過(guò)到那時(shí),人類在智慧上的優(yōu)越感,又要靠什么來(lái)維持呢?

關(guān)鍵詞: 股票頻道 24小時(shí)直播
最新動(dòng)態(tài)
相關(guān)文章
即時(shí):人類的考試,考驗(yàn)不了AI了
消息稱亞馬遜AWS云計(jì)算部門裁員,波及至...
消息稱外賣“瘋狂星期六”美團(tuán)單日補(bǔ)貼...
估值百億 消息稱一汽與卓馭正在商討戰(zhàn)...
焦點(diǎn)快看:傳游戲外包服務(wù)商維塔士裁員300人
焦點(diǎn)熱文:OpenAI發(fā)布ChatGPT智能體:可...