動態(tài)焦點:AI榜單“變天”了!馬斯克發(fā)布Grok 4.1,盲測排名登頂?shù)谝?/h1>
就在OpenAI發(fā)布GPT-5.1,大談“情商”之際,埃隆·馬斯克(Elon Musk)也帶著他的xAI,火速加入了這場“AI體驗”之戰(zhàn)。
就在剛剛,xAI宣布推出Grok 4.1,這是對現(xiàn)有Grok 4模型的重大升級,并已在grok.com、X平臺以及iOS和Android應(yīng)用向所有用戶全面開放。。官方宣稱,新版本在創(chuàng)意表達(dá)、情感互動和協(xié)同交流方面表現(xiàn)尤為突出,并且出現(xiàn)幻覺的概率僅為此前模型的三分之一。
(相關(guān)資料圖)
更引人注目的是,在一個公開的“盲測”競技場(LMArena)上,Grok 4.1的“思考模式”版本已悄然登頂總榜第一,甚至其“非推理”的快速模式,都擊敗了所有對手的“完整推理”模式。
這場突如其來的“榜首易主”,無疑為日趨白熱化的AI競賽,又增添了濃重的火藥味。
Grok 4.1升級了什么?
xAI本次發(fā)布了兩個Grok 4.1模型:Grok 4.1(非推理模式)和 Grok 4.1 Thinking(思考模式)。這兩個模型均可免費(fèi)使用,但付費(fèi)用戶面臨的限制更少。
官方表示,新版本能更細(xì)致地理解隱含意圖,與之對話引人入勝,也更能保持人設(shè)的一致性。
為了優(yōu)化模型的風(fēng)格、人格和有用性,xAI利用前沿的代理型推理模型(agentic reasoning models)作為“獎勵模型”,在大規(guī)模環(huán)境中自主評估并迭代模型的回答。
在11月1日至14日的“靜默上線”期間,xAI在真實流量上進(jìn)行了盲測式的成對比較評估,結(jié)果顯示,在64.78%的情況下,用戶更偏好Grok 4.1。
“盲測”登頂,Grok 4.1到底有多強(qiáng)?
Grok 4.1在盲測的人類偏好評估中樹立了新的行業(yè)標(biāo)準(zhǔn)。
LMArena是一個開源工具,用戶可以通過并排、盲測的方式,比較不同大語言模型的表現(xiàn)。在這個競爭最激烈的“斗獸場”里,Grok 4.1取得了驚人的成績:
· Grok 4.1的“思考模式”(代號:quasarflux)以1483 Elo的成績位列總榜第一,領(lǐng)先所有非xAI模型31分。
· Grok 4.1的“非推理模式”(代號:tensor)無需使用“思考詞元”(thinking tokens),可立即生成回答,并以1465 Elo的成績排名第二。
· 更夸張的是,Grok 4.1的“非推理”模式表現(xiàn),超過了所有其他模型在“完整推理模式”下的公開排行榜成績。
與之相比, Grok 4此前在該榜單上的綜合排名僅為第33位。
“情商”與“文采”,一個都不能少
除了通用能力,xAI還強(qiáng)調(diào)了新模型在“軟實力”上的提升。
· 情緒智能(Emotional Intelligence)為評估模型在個性與人際互動方面的進(jìn)展,xAI對Grok 4.1進(jìn)行了EQ-Bench3測試。這是一項由LLM作為裁判的測試,用于評估模型在主動情緒智能、理解力、洞察力、共情能力和人際技能方面的表現(xiàn)。
· 創(chuàng)意寫作能力(Creative Writing)xAI同樣測量了Grok 4.1在Creative Writing v3基準(zhǔn)測試中的表現(xiàn)。在該測試中,模型需要根據(jù)32個不同的寫作提示,在3次迭代中生成回答。
更少的“幻覺”
快速響應(yīng)模型在配備搜索工具后,雖然能迅速給出答案,但更容易出現(xiàn)事實性錯誤。
在Grok 4.1的后訓(xùn)練階段,xAI重點降低了模型在信息查詢類提示中的事實性“幻覺”。
根據(jù)xAI的說法,Grok 4.1出現(xiàn)幻覺的概率是此前模型的三分之一,這使其成為xAI迄今為止的最佳版本之一。
為了驗證這一點,xAI不僅在真實的生產(chǎn)流量中進(jìn)行了評估,還使用了FActScore——一個包含500道關(guān)于人物傳記問題的公開基準(zhǔn)測試。
挑戰(zhàn)與未來:真正的對手還在路上
盡管Grok 4.1的“盲測”成績斐然,但AI的王座之爭遠(yuǎn)未結(jié)束。
目前,我們尚不清楚它與GPT-5.1相比的真實表現(xiàn)。
更重要的是,谷歌(Google)正在準(zhǔn)備發(fā)布Gemini 3.0,這可能會成為迄今為止最強(qiáng)大的模型。
Grok 4.1的發(fā)布,無疑是馬斯克在AI競賽中投下的一枚重要棋子。但在這場“神仙打架”的牌局中,誰能笑到最后,還遠(yuǎn)未可知。(易句)
(本文由AI翻譯,網(wǎng)易編輯負(fù)責(zé)校對)
[責(zé)任編輯:xwzkw]
相關(guān)閱讀
- (2025-11-18)最新資訊:日本火山連續(xù)兩天爆炸性噴發(fā)
- (2025-11-18)發(fā)揮供銷合作優(yōu)勢 太原鹽業(yè)參加“郵入千企”活動
- (2025-11-18)焦點速看:【ETF動向】11月17日國泰中證新能源汽車ETF基金漲1.91%,份額減少400萬份
- (2025-11-18)2025年蛋氨酸龍頭股票,名單收好啦!(11月17日)
- (2025-11-18)美股鋰礦股集體上漲
- (2025-11-17)歐瑩獲女子400米欄銅牌! 每日信息
- (2025-11-17)即時焦點:2025年版!煤制油概念股票名單,建議收藏!(11月17日)
- (2025-11-17)A股創(chuàng)新疫苗上市龍頭公司,請查閱!(2025/11/17)
- (2025-11-17)阿里巴巴-W獲南向資金連續(xù)3天凈買入|實時焦點
- (2025-11-17)“詩行廣西 逐夢青春”優(yōu)秀作品?丨《會奔跑的顏料》|通訊
- (2025-11-17)善裕集團(tuán)控股(08245.HK)第二名稱更改為"烽翼集團(tuán)有限公司"
- (2025-11-17)5連板安泰集團(tuán):公司目前的市凈率高于所屬行業(yè)板塊的市凈率 存在市場情緒過熱、非理性炒作風(fēng)險
- (2025-11-17)馬斯克稱人類20年內(nèi)有望實現(xiàn)“數(shù)字永生”
- (2025-11-17)從此沒有到不了的遠(yuǎn)方,縱橫G700全領(lǐng)域陣容即將亮相廣州車展
- (2025-11-17)新動態(tài):國家外匯管理局:10月銀行結(jié)匯15194億元 售匯13940億元人民幣
- (2025-11-17)博碩科技:公司在動力電池、儲能電池等新能源/汽車類領(lǐng)域的主要產(chǎn)品為精密功能件
- (2025-11-17)快播:五洲醫(yī)療主力資金持續(xù)凈流入,3日共凈流入1025.71萬元
- (2025-11-17)請查收!一組海報速覽北京“十四五”答卷 實時焦點
- (2025-11-17)每日動態(tài)!贈書|《外面天氣怎么樣》:八個當(dāng)代女性的故事
- (2025-11-17)肚子里的“心跳”竟是致命危機(jī)?介入專家巧解高齡難題
- (2025-11-17)今日快看!2025年11月17日西牧科技(青海)有限責(zé)任公司價格行情
- (2025-11-17)每日關(guān)注!PTA股票龍頭股,共三家上市公司,先收藏起來!
- (2025-11-17)老人胸內(nèi)藏“炸彈” 多學(xué)科微創(chuàng)巧拆除
- (2025-11-17)錦旗致謝“真高手” 手法復(fù)位助八旬骨折老人免手術(shù)
- (2025-11-17)哈登下半場32分引美媒熱議:一路被命運(yùn)折磨的超級英雄!太可惜
- (2025-11-17)命中2144個三分,希爾德超越皮爾斯升至NBA歷史三分榜第15
- (2025-11-17)關(guān)注:軍工股早盤漲幅居前 中船防務(wù)上漲6.15%中航科工上漲1.53%
- (2025-11-17)《天年智慧》互聯(lián)網(wǎng)公益講堂-一個有溫度的健康課堂
- (2025-11-17)濰柴動力:目前數(shù)據(jù)中心行業(yè)供電架構(gòu)及機(jī)柜容量變化較大 觀熱點
就在OpenAI發(fā)布GPT-5.1,大談“情商”之際,埃隆·馬斯克(Elon Musk)也帶著他的xAI,火速加入了這場“AI體驗”之戰(zhàn)。
就在剛剛,xAI宣布推出Grok 4.1,這是對現(xiàn)有Grok 4模型的重大升級,并已在grok.com、X平臺以及iOS和Android應(yīng)用向所有用戶全面開放。。官方宣稱,新版本在創(chuàng)意表達(dá)、情感互動和協(xié)同交流方面表現(xiàn)尤為突出,并且出現(xiàn)幻覺的概率僅為此前模型的三分之一。
(相關(guān)資料圖)
更引人注目的是,在一個公開的“盲測”競技場(LMArena)上,Grok 4.1的“思考模式”版本已悄然登頂總榜第一,甚至其“非推理”的快速模式,都擊敗了所有對手的“完整推理”模式。
這場突如其來的“榜首易主”,無疑為日趨白熱化的AI競賽,又增添了濃重的火藥味。
Grok 4.1升級了什么?
xAI本次發(fā)布了兩個Grok 4.1模型:Grok 4.1(非推理模式)和 Grok 4.1 Thinking(思考模式)。這兩個模型均可免費(fèi)使用,但付費(fèi)用戶面臨的限制更少。
官方表示,新版本能更細(xì)致地理解隱含意圖,與之對話引人入勝,也更能保持人設(shè)的一致性。
為了優(yōu)化模型的風(fēng)格、人格和有用性,xAI利用前沿的代理型推理模型(agentic reasoning models)作為“獎勵模型”,在大規(guī)模環(huán)境中自主評估并迭代模型的回答。
在11月1日至14日的“靜默上線”期間,xAI在真實流量上進(jìn)行了盲測式的成對比較評估,結(jié)果顯示,在64.78%的情況下,用戶更偏好Grok 4.1。
“盲測”登頂,Grok 4.1到底有多強(qiáng)?
Grok 4.1在盲測的人類偏好評估中樹立了新的行業(yè)標(biāo)準(zhǔn)。
LMArena是一個開源工具,用戶可以通過并排、盲測的方式,比較不同大語言模型的表現(xiàn)。在這個競爭最激烈的“斗獸場”里,Grok 4.1取得了驚人的成績:
· Grok 4.1的“思考模式”(代號:quasarflux)以1483 Elo的成績位列總榜第一,領(lǐng)先所有非xAI模型31分。
· Grok 4.1的“非推理模式”(代號:tensor)無需使用“思考詞元”(thinking tokens),可立即生成回答,并以1465 Elo的成績排名第二。
· 更夸張的是,Grok 4.1的“非推理”模式表現(xiàn),超過了所有其他模型在“完整推理模式”下的公開排行榜成績。
與之相比, Grok 4此前在該榜單上的綜合排名僅為第33位。
“情商”與“文采”,一個都不能少
除了通用能力,xAI還強(qiáng)調(diào)了新模型在“軟實力”上的提升。
· 情緒智能(Emotional Intelligence)為評估模型在個性與人際互動方面的進(jìn)展,xAI對Grok 4.1進(jìn)行了EQ-Bench3測試。這是一項由LLM作為裁判的測試,用于評估模型在主動情緒智能、理解力、洞察力、共情能力和人際技能方面的表現(xiàn)。
· 創(chuàng)意寫作能力(Creative Writing)xAI同樣測量了Grok 4.1在Creative Writing v3基準(zhǔn)測試中的表現(xiàn)。在該測試中,模型需要根據(jù)32個不同的寫作提示,在3次迭代中生成回答。
更少的“幻覺”
快速響應(yīng)模型在配備搜索工具后,雖然能迅速給出答案,但更容易出現(xiàn)事實性錯誤。
在Grok 4.1的后訓(xùn)練階段,xAI重點降低了模型在信息查詢類提示中的事實性“幻覺”。
根據(jù)xAI的說法,Grok 4.1出現(xiàn)幻覺的概率是此前模型的三分之一,這使其成為xAI迄今為止的最佳版本之一。
為了驗證這一點,xAI不僅在真實的生產(chǎn)流量中進(jìn)行了評估,還使用了FActScore——一個包含500道關(guān)于人物傳記問題的公開基準(zhǔn)測試。
挑戰(zhàn)與未來:真正的對手還在路上
盡管Grok 4.1的“盲測”成績斐然,但AI的王座之爭遠(yuǎn)未結(jié)束。
目前,我們尚不清楚它與GPT-5.1相比的真實表現(xiàn)。
更重要的是,谷歌(Google)正在準(zhǔn)備發(fā)布Gemini 3.0,這可能會成為迄今為止最強(qiáng)大的模型。
Grok 4.1的發(fā)布,無疑是馬斯克在AI競賽中投下的一枚重要棋子。但在這場“神仙打架”的牌局中,誰能笑到最后,還遠(yuǎn)未可知。(易句)
(本文由AI翻譯,網(wǎng)易編輯負(fù)責(zé)校對)
[責(zé)任編輯:xwzkw]
相關(guān)閱讀
- (2025-11-18)最新資訊:日本火山連續(xù)兩天爆炸性噴發(fā)
- (2025-11-18)發(fā)揮供銷合作優(yōu)勢 太原鹽業(yè)參加“郵入千企”活動
- (2025-11-18)焦點速看:【ETF動向】11月17日國泰中證新能源汽車ETF基金漲1.91%,份額減少400萬份
- (2025-11-18)2025年蛋氨酸龍頭股票,名單收好啦!(11月17日)
- (2025-11-18)美股鋰礦股集體上漲
- (2025-11-17)歐瑩獲女子400米欄銅牌! 每日信息
- (2025-11-17)即時焦點:2025年版!煤制油概念股票名單,建議收藏!(11月17日)
- (2025-11-17)A股創(chuàng)新疫苗上市龍頭公司,請查閱!(2025/11/17)
- (2025-11-17)阿里巴巴-W獲南向資金連續(xù)3天凈買入|實時焦點
- (2025-11-17)“詩行廣西 逐夢青春”優(yōu)秀作品?丨《會奔跑的顏料》|通訊
- (2025-11-17)善裕集團(tuán)控股(08245.HK)第二名稱更改為"烽翼集團(tuán)有限公司"
- (2025-11-17)5連板安泰集團(tuán):公司目前的市凈率高于所屬行業(yè)板塊的市凈率 存在市場情緒過熱、非理性炒作風(fēng)險
- (2025-11-17)馬斯克稱人類20年內(nèi)有望實現(xiàn)“數(shù)字永生”
- (2025-11-17)從此沒有到不了的遠(yuǎn)方,縱橫G700全領(lǐng)域陣容即將亮相廣州車展
- (2025-11-17)新動態(tài):國家外匯管理局:10月銀行結(jié)匯15194億元 售匯13940億元人民幣
- (2025-11-17)博碩科技:公司在動力電池、儲能電池等新能源/汽車類領(lǐng)域的主要產(chǎn)品為精密功能件
- (2025-11-17)快播:五洲醫(yī)療主力資金持續(xù)凈流入,3日共凈流入1025.71萬元
- (2025-11-17)請查收!一組海報速覽北京“十四五”答卷 實時焦點
- (2025-11-17)每日動態(tài)!贈書|《外面天氣怎么樣》:八個當(dāng)代女性的故事
- (2025-11-17)肚子里的“心跳”竟是致命危機(jī)?介入專家巧解高齡難題
- (2025-11-17)今日快看!2025年11月17日西牧科技(青海)有限責(zé)任公司價格行情
- (2025-11-17)每日關(guān)注!PTA股票龍頭股,共三家上市公司,先收藏起來!
- (2025-11-17)老人胸內(nèi)藏“炸彈” 多學(xué)科微創(chuàng)巧拆除
- (2025-11-17)錦旗致謝“真高手” 手法復(fù)位助八旬骨折老人免手術(shù)
- (2025-11-17)哈登下半場32分引美媒熱議:一路被命運(yùn)折磨的超級英雄!太可惜
- (2025-11-17)命中2144個三分,希爾德超越皮爾斯升至NBA歷史三分榜第15
- (2025-11-17)關(guān)注:軍工股早盤漲幅居前 中船防務(wù)上漲6.15%中航科工上漲1.53%
- (2025-11-17)《天年智慧》互聯(lián)網(wǎng)公益講堂-一個有溫度的健康課堂
- (2025-11-17)濰柴動力:目前數(shù)據(jù)中心行業(yè)供電架構(gòu)及機(jī)柜容量變化較大 觀熱點





