久久99久国产精品66,久久精品成人亚洲另类欧美,中文字幕日韩精品无码内射

您的位置：首頁 >綜合 > 市場 >

即時(shí)：人類的考試，考驗(yàn)不了AI了

來源：DoNews 2025-07-18 17:56:36

2017年5月，當(dāng)時(shí)世界圍棋排名第一的柯潔慘敗于AlphaGo，在機(jī)器是否會(huì)比人類更聰明這個(gè)事關(guān)全人類尊嚴(yán)的問題上，我們第一次有了一個(gè)確定性的答案。

(資料圖片僅供參考)

一年前尚且能贏一局的李世石，成為人類棋手在AI面前最后的夕陽。

不過，人類善于尋找理由，比如將智力轉(zhuǎn)換為更復(fù)雜且難以解釋的“智慧”，那就顯得我們還在贏，還有是更“高級(jí)的”贏法。而且作為在智慧這條路徑上的先行者，人類可以既做選手又做裁判，給出一套套的測試標(biāo)準(zhǔn)，美其名曰測試AI，AI超過了人類水平，那是人類推動(dòng)的科技進(jìn)步，AI沒有超過人類，那人類再次贏贏贏。

但“青出于藍(lán)而勝于藍(lán)”這件事，雖然人類希望AI快點(diǎn)做到，可當(dāng)快到像迎面而來的一陣冰雹猛地砸到臉上時(shí)，絕大多數(shù)人還是會(huì)不適應(yīng)到懵逼。

最初，我們輕松地用游戲來測試AI，現(xiàn)在，人類能參與地最難的考試，也即將無法用來考驗(yàn)AI了。

在一個(gè)周前，馬斯克發(fā)布了最新版的Grok-4，這款大模型，用老馬的話來說，“比所有領(lǐng)域的博士都聰明”。

而其在各項(xiàng)考試中的成績，可以說是怪物般的存在：

我們比較熟悉的SAT和GRE考試幾乎滿分，不太熟悉但更難的考試，GPQA（研究生水平問答）準(zhǔn)確率為88.9%，AIME25（美國數(shù)學(xué)邀請賽）準(zhǔn)確率為100%，USAMO25（美國數(shù)學(xué)奧林匹克競賽）準(zhǔn)確率為61.9%。

最引人注目的是“人類最后的考試”（Humanity’s Last Exam，簡稱“HLM”），聽這個(gè)名字，大家就能知道它代表的意思。

這個(gè)考試是由 Scale AI 和 Center for AI Safety（CAIS）發(fā)布的，包含3000個(gè)高難度的問題，涉及超過100個(gè)學(xué)科，題目來自數(shù)百位不同領(lǐng)域的專家，可以說，這套試題涵蓋了人類智力任務(wù)中最具挑戰(zhàn)性的部分，足以用來衡量AI是否具備“類人智能”。

其中題目分為兩類，一類是簡答題（Exact-Match Questions），需要輸出一個(gè)完全匹配的字符串作為答案，另一類是選擇題（Multiple-Choice Questions），需要從五個(gè)或更多選項(xiàng)中選擇一個(gè)正確答案。

不過，前者占到了80%，而且數(shù)學(xué)相關(guān)的題目占到了全部問題的42%，所以不要指望碰運(yùn)氣能刷出高分。

來自題庫的題目之一，感受一下無知的痛苦吧

據(jù)說，以普通人的水平，大概能答對5%的題目，而當(dāng)時(shí)的大模型也紛紛折戟，沒有一個(gè)能超過10%。你問人類最多能打多少分？這不重要，反正題目也是人類出的。

但Grok-4的出現(xiàn)，卻讓AI通過“人類最后的考試”的時(shí)間大大縮短了，達(dá)到了50.7%的準(zhǔn)確率，成為首個(gè)突破50%的大模型。

這個(gè)分?jǐn)?shù)，高的驚人，但因?yàn)榭荚嚨碾y度過大，距離大家的生活又太遠(yuǎn)，所以很難直觀的說明有多難得，不過好在，后來筆者找到了一個(gè)差不多所有中國人都能理解的參考系。

在Grok-4發(fā)布的差不多同一時(shí)間，上海交大聯(lián)合深勢科技團(tuán)隊(duì)，使用 DeepSeek-R1-0528 作為驅(qū)動(dòng)智能體的推理模型，在“人類最后的考試”上拿下了32.1%的新紀(jì)錄，可以說代表著國內(nèi)大模型的最高水平。（雖然立刻就被趕超了）

而大概一兩周之前，國內(nèi)的大模型正在集體測試另一套“國民考試”——高考試題。

比如，字節(jié)跳動(dòng) Seed 團(tuán)隊(duì)就用最新推出的通用模型 Seed1.6 對2025年山東卷高考真題（題目源自網(wǎng)絡(luò)）進(jìn)行測試，語數(shù)外采用新課標(biāo)全國Ⅰ卷，其余科目為山東省自主命題，滿分750分，并找來了兩位來自重點(diǎn)高中、有聯(lián)考判卷經(jīng)驗(yàn)的高中老師進(jìn)行匿名評(píng)估和多輪質(zhì)檢。

最終， Seed1.6 在理科和文科分別考取了648和683的高分，這個(gè)分?jǐn)?shù)在山東省分別是4005名和211名，理科成績可以沖擊武漢大學(xué)，穩(wěn)妥些也能去華中科技大學(xué)；而文科成績，更是有把握沖擊清北，保底也能去上海交大和復(fù)旦大學(xué)。作為參照的 DeepSeek-R1-0528 ，理科和文科分別考取了615和631，上到985（個(gè)別名校除外）下到211也是選擇多多。（排名信息及志愿推薦來源：中國教育在線）

也有媒體用國產(chǎn)大模型測試了下高考遼寧卷，顯示騰訊元寶（混元T1）文科卷的分?jǐn)?shù)還要更勝一籌，筆者查詢了下，其文科成績排到了全省第11名，屬于是清北招生辦爭相打電話，理科成績就遜色多了，但上個(gè)985還是沒問題的。至于DeepSeek，大致是沖擊985保底211的水平。

所以，以高考試卷為標(biāo)準(zhǔn)，那么DeepSeek和豆包、混元間幾十分的差距，是考上985和考上清北的差距；而以HLM為標(biāo)準(zhǔn)，DeepSeek和 Grok-4 差了接近40%的分值……

“比所有領(lǐng)域的博士都聰明”的真假還不確定，但在剛剛高考完的這一屆高三考生中，文科成績能超過AI的真的不多了。也許下一年，大模型們的高考成績，就要徹底吊打人類考生了，能考上清北的人被稱為天才，但天才努力跨過的門檻，只是AI的保底志愿。

但我更傾向于認(rèn)為，就像人們對AI在圍棋領(lǐng)域?qū)θ祟惖哪雺涸贌o興趣一般，高考，還有其他人類能參與的考試，包括“人類最后的考試”，最終都會(huì)呈現(xiàn)AI一邊倒的絕對優(yōu)勢，以至于讓人習(xí)以為常。

可能到時(shí)候，人類會(huì)制定新的考試，但不再考慮將人類和AI進(jìn)行對比，而是AI之間純粹的競賽；也可能將不存在這樣的考試或者變得很少，人們將更關(guān)注AI的應(yīng)用落地和性價(jià)比，畢竟人類也好，AI也好，考試都只是過程之一，創(chuàng)造出價(jià)值才是最終的目的和結(jié)果。

不過到那時(shí)，人類在智慧上的優(yōu)越感，又要靠什么來維持呢？

關(guān)鍵詞：股票頻道 24小時(shí)直播

最新動(dòng)態(tài)