歷時400多天，國產(chǎn)大模型全面趕超GPT-4？

2024-05-10 13:56 來源：A5專欄我來投稿撤稿糾錯

稍微留意下近期的新聞，“趕超GPT-4”正在成為國產(chǎn)大模型的新熱點。

百度文心一言、商湯日日新以及阿里云剛剛發(fā)布的通義千問2.5，均已邁入“全面趕超GPT-4”陣營。

把時間線稍微拉長一些的話，過去大半年時間里，“超越GPT-4”的消息可謂屢見不鮮，即使在報道中刻意加上了多項基準(zhǔn)、部分指標(biāo)等前綴，依然賺足了眼球，成為國產(chǎn)大模型佐證自身能力的有力指標(biāo)。

簡單做個復(fù)盤的話，國產(chǎn)大模型對GPT-4的追趕已經(jīng)進(jìn)行了400多天，其中“趕超進(jìn)程”可以粗分為三個階段。

第一階段：部分性能超越GPT-4

2023年3月14日，OpenAI正式推出了GPT-4，彼時大多數(shù)國產(chǎn)大模型還未開放，少數(shù)內(nèi)測大模型的比較對象還是GPT-3。作為業(yè)界標(biāo)桿的GPT-4，就像是科幻照進(jìn)了現(xiàn)實，被無數(shù)人捧上神壇。

但在短短半年后，GPT-4就出現(xiàn)在了國產(chǎn)大模型廠商的比較名單里。

2023年8月底，商湯科技對外公布了一則新進(jìn)展：擁有1230億個參數(shù)的“書生·浦語”，在全球51個知名評測集共計30萬道問題集合上，測試成績排名全球第二，并在綜合考試agieval、知識問答commonsenseqa、閱讀理解和推理的十項評測中位列第一，分?jǐn)?shù)超過風(fēng)頭正盛的GPT-4。

2023年10月17日的“生成未來”發(fā)布會上，百度正式發(fā)布了文心大模型4.0版本，李彥宏在現(xiàn)場依次演示了大模型的理解、生成、邏輯和記憶四大核心能力的特點與應(yīng)用場景。盡管沒有給出評測數(shù)據(jù)，李彥宏卻自信地表示：文心大模型4.0的綜合水平，“與GPT-4相比毫不遜色”。

國產(chǎn)大模型趕超GPT-4的序幕正式拉開，此后一兩個月里，不少大模型給了這樣的營銷口徑：整體能力已經(jīng)不輸于GPT-3.5，并且在部分性能指標(biāo)上開始超越GPT-4。

第二階段：整體性能逼近GPT-4

時間來到2024年初，國內(nèi)的“百模大戰(zhàn)”進(jìn)入收斂期，一些不被資本市場認(rèn)可的大模型，漸漸成了一個數(shù)字，只有幾家科技大廠和獨角獸仍活躍在大模型一線。“活下來”的大模型，勢必要在能力上證明自己。

綜合性能逼近GPT-4，開始成為新的營銷話術(shù)。

2024年1月中旬的智譜AI技術(shù)開放日上，正式發(fā)布了新一代基座大模型GLM-4。按照智譜AI官方的說法：在權(quán)威的英文測試榜單中，GLM-4已經(jīng)整體逼近GPT-4，平均能達(dá)到GPT-4 90%以上的水平，在個別項目上表現(xiàn)持平；而在國內(nèi)企業(yè)更加看重的中文任務(wù)上，GLM-4的表現(xiàn)全面超過GPT-4。

同樣是在2024年1月，科大訊飛發(fā)布了星火認(rèn)知大模型V3.5，在邏輯推理、語言理解、文本生成、數(shù)學(xué)答題、代碼、多模態(tài)等核心能力均顯著提升，其中語言理解、數(shù)學(xué)能力已經(jīng)超過GPT-4 Turbo，代碼能力達(dá)到GPT-4 Turbo 96%，多模態(tài)理解達(dá)到GPT-4V 91%。“在中文理解方面，甚至遙遙領(lǐng)先。”

回頭來看，智譜AI和科大訊飛的營銷策略還是有些“保守”，百川智能在同一時間段發(fā)布的Baichuan 3，對外表示已經(jīng)在CMMLU、GAOKAO等中文評測中超越GPT-4。

第三階段：全面趕超GPT-4 Turbo

2023年11月的OpenAI首屆開發(fā)者大會，GPT-4 Turbo可以說整個活動的焦點，不僅比GPT-4更聰明，文本處理的上限更高，推理的速度更快，價格也更便宜，國產(chǎn)大模型隨即迎來了新的比較對象。

先是2024年4月份發(fā)布的日日新5.0，擁有6000億參數(shù)，并在發(fā)布會上引用了OpenCompass的評測數(shù)據(jù)：日日新5.0達(dá)到或超越了GPT-4 Turbo版本，幾乎全方位碾壓了同期發(fā)布的 Llama 3-70B。

再然后就是阿里云剛剛發(fā)布的通義千問2.5，根據(jù)媒體報道中的說法：模型性能全面趕超GPT-4-Turbo，成為“地表最強”中文大模型；通義千問1100億參數(shù)開源模型在多個基準(zhǔn)測評收獲最佳成績，超越Meta的Llama-3-70B，成為開源領(lǐng)域最強大模型。

可以篤定的是，日日新5.0和通義千問2.5只是個開始，后續(xù)將有更多國產(chǎn)大模型在能力上超越GPT-4-Turbo。

畢竟科大訊飛早已預(yù)熱了上半年發(fā)布星火認(rèn)知大模型V4.0的消息，將全面對標(biāo)GPT-4系列；文心一言4.0的發(fā)布已經(jīng)超過半年，不排除新版本正在準(zhǔn)備中，且大概率會在性能上再上一個臺階……

“跑分”的意義在哪里？

不管是一開始的“部分性能超越”，還是現(xiàn)在進(jìn)行中的“全面趕超”，依據(jù)都是第三方評測結(jié)果，或者說大模型廠商的主觀判斷。比如商湯和阿里云爭相引用的OpenCompass，就是上海人工智能實驗室開源的大模型評測平臺。

對于一些大模型沉迷于刷榜、跑分的現(xiàn)象，上海人工智能實驗室領(lǐng)軍科學(xué)家林達(dá)華教授曾在媒體采訪中直言：通過題海戰(zhàn)術(shù)提高大模型成績，對于模型實際能力的反應(yīng)是失真的，影響了模型研發(fā)團(tuán)隊的改進(jìn)方向和模型的商業(yè)落地，“高分低能”傷害的是機構(gòu)本身；榜單上任何具體的名字只是大模型成長過程中無數(shù)次測試中的一次，一時的排名高低并不真正反映模型的能力。

何況很多大模型測試集為了公開透明，測試題目或者提綱都是公開的，大模型廠商不難通過“針對性的訓(xùn)練”來提高分?jǐn)?shù)。只要將足夠的的測試題喂給大模型，在開卷考試的機制下，分?jǐn)?shù)總不會太低。

也就是說，分?jǐn)?shù)高并不一定代表大模型的能力強。“跑分”的意義僅僅是讓客戶或開發(fā)者對大模型能力有一個初步的認(rèn)識，最終的評估因素永遠(yuǎn)是“能不能解決問題”，“能不能在場景中帶來實實在在的生產(chǎn)力”。

特別是在大模型走向落地應(yīng)用的趨勢下，一味炒作“超越GPT-4”、“跑分第一”，妄顧落地應(yīng)用的實效，可能會適得其反。以大模型應(yīng)用中比較常見的財報分析為例，如果大模型連一家企業(yè)的財報都看不懂，再高的計算分?jǐn)?shù)也不會讓客戶信服，反而會被排除在合作名單外。

而參考中信證券等機構(gòu)的研究報告，目前OpenAI的GPT-5正處于紅隊測試階段，有望在今年夏天正式發(fā)布，可能在多模態(tài)理解、長文本輸入、zero-shot學(xué)習(xí)等方面實現(xiàn)重大突破，且性能將遠(yuǎn)超GPT-4。即使國產(chǎn)大模型花費400多天追平了GPT-4，在相當(dāng)長一段時間里，仍將處于追趕的姿態(tài)。

大模型的價值是解決日常問題的生產(chǎn)力工具，趕超GPT-4的階段性升級，可以看作是國產(chǎn)大模型有序迭代部署、不斷拉近差距的標(biāo)志，切莫像手機跑分那樣，在過度營銷的作用下，淪為被群嘲的對象。

申請創(chuàng)業(yè)報道，分享創(chuàng)業(yè)好點子。點擊此處，共同探討創(chuàng)業(yè)新機遇！

相關(guān)標(biāo)簽: 大模型

相關(guān)文章

大模型爭霸的下一站：不僅是超越GPT-4，更是尋求模型之間的平衡應(yīng)用

文|智能相對論作者|沈浪知名科學(xué)雜志《Nature》發(fā)表了一篇關(guān)于大模型規(guī)模參數(shù)大小爭議的文章《InAl,isbiggeralwaysbetter?》——AI大模型，越大越好嗎？隨著大模型應(yīng)用走向?qū)嵺`，這一問題不可避免地成為了當(dāng)前AI行業(yè)發(fā)展的焦點與爭議。有人認(rèn)為，大模型當(dāng)然是越大越好，參數(shù)越大，性

標(biāo)簽：

大模型
解密Kimi：大模型應(yīng)用當(dāng)紅頂流是如何練成的？

拋開營銷戰(zhàn)，或許在中國也可以探索新的大模型應(yīng)用聚合方式、供給方式以及商業(yè)利潤分配的方式，對大模型公司來說，這將是一個新議題。

標(biāo)簽：

大模型
大模型的現(xiàn)在進(jìn)行時：走出對話框，走向產(chǎn)業(yè)端

大模型熱潮涌動了一年多后，越來越多人平復(fù)了激動的情緒，開始從客觀的視角重新思考大模型的價值和機會。紅杉資本在AlAscent2024的開場演講中提到，大模型的創(chuàng)造能力和推理能力，第一次實現(xiàn)了以類似人類的方式進(jìn)行交互，將支撐起數(shù)十萬億美元的市場。然而和AGI的遙遠(yuǎn)夢想相比，大模型的創(chuàng)業(yè)者們卻不得不正視

標(biāo)簽：

大模型
李彥宏放話：百度AI大模型絕不搶開發(fā)者飯碗

關(guān)注盧松松，會經(jīng)常給你分享一些我的經(jīng)驗和觀點。昨晚，李彥宏內(nèi)部講話稱：AI大模型開源意義不大，百度絕不搶開發(fā)者飯碗。但你一定要說話算話哦，可千萬別說：“我永遠(yuǎn)不做手機，誰再敢提做手機就給我走人”，結(jié)果5年后自己的手機銷量排名第一。如果百度也這么干的話估計AI也沒人用了。李彥宏認(rèn)為：從商業(yè)模式的角度來

標(biāo)簽：

大模型
360 AI員工“紅衣”入職事業(yè)部承擔(dān)多項安全運營工作

近日，科技巨頭360公司宣布，其全新AI員工“紅衣”正式入職事業(yè)部，標(biāo)志著公司向智能化、自動化方向邁出了堅實的一步。據(jù)悉，“紅衣”由360安全大模型支持，具備高度智能化和自主學(xué)習(xí)能力，能夠在多個領(lǐng)域提供高效、精準(zhǔn)的服務(wù)。“紅衣”是首位正式入職的數(shù)字安全專家，由360安全大模型支持，在安全運營工作中，

標(biāo)簽：

大模型

Manus官網(wǎng)突現(xiàn)“地區(qū)不可用”提示，中國區(qū)業(yè)務(wù)戰(zhàn)略性調(diào)整引關(guān)注

四個月前邀請碼炒至10萬元，如今官網(wǎng)變灰、社交賬號清空，這家AI新貴的閃電遷移折射中國科技企業(yè)出海潮涌。7月11日，打開Manus官網(wǎng)的用戶發(fā)現(xiàn)一則突兀提示：“Manus在你所在的地區(qū)不可用”。而就在不久前，這個位置還顯示著“Manus中文版本正在開發(fā)中”的樂觀聲明。同時，Manus官方微博和小紅書

標(biāo)簽：

ai智能
摩爾線程估值超 250 億，「中國英偉達(dá)」沖刺科創(chuàng)板

文/十界來源/節(jié)點財經(jīng)一場圍繞算力自主的競賽，正在科創(chuàng)板上演。近日，國產(chǎn)全功能GPU廠商摩爾線程遞交科創(chuàng)板招股書，擬募資約80億人民幣，成為今年上半年科創(chuàng)板擬募資規(guī)模最大的沖刺者，也打響了“國產(chǎn)英偉達(dá)”上市的第一槍。據(jù)招股書顯示，摩爾線程自2020年成立以來，主營全功能GPU芯片的研發(fā)與銷售，以自主
百川智能高管集體跑路!王小川的醫(yī)療AI還能贏嗎?

“AI大模型六小虎”百川智能危機重重。這是前搜狗CEO王小川創(chuàng)辦的AI公司。昨天就爆出新聞，百川智能的聯(lián)合創(chuàng)始人離職，這是王小川入局AI的第一道大坎。接下的成敗非常關(guān)鍵：(1)拿下河北(2)學(xué)習(xí)科大訊飛百川智能離職高端概覽：(1)2025年7月10日，百川智能技術(shù)聯(lián)合創(chuàng)始人謝劍將離職。他是百川只能的

標(biāo)簽：

人工智能

ai智能
百度智能云PaddleOCR 3.1正式發(fā)布：關(guān)鍵能力支持MCP

百度AI團(tuán)隊今日正式推出PaddleOCR3.1版本，以突破性的多語言組合識別（MultilingualCompositionPerception,MCP）技術(shù)為核心，徹底重構(gòu)復(fù)雜文檔處理邊界。此次升級標(biāo)志著OCR領(lǐng)域首次實現(xiàn)對同一文檔內(nèi)任意混合語言文本的精準(zhǔn)識別，為全球化企業(yè)、跨境業(yè)務(wù)及多元文化場

標(biāo)簽：

ai智能

ai技術(shù)
宇樹科技加速沖刺科創(chuàng)板IPO，人形機器人龍頭估值飆至120億元

“宇樹已形成硬件、算法、場景聯(lián)動的業(yè)務(wù)飛輪，自研率超95%的技術(shù)壁壘讓其成為全球機器人賽道不可忽視的中國力量。”首程資本管理合伙人朱方文在追加投資時如是評價。7月7日，據(jù)每日經(jīng)濟(jì)新聞從宇樹科技投資方處獲悉，國內(nèi)人形機器人領(lǐng)軍企業(yè)宇樹科技（UnitreeRobotics）已明確計劃于科創(chuàng)板IPO，預(yù)計

標(biāo)簽：

宇樹科技
OpenAI推出GPT-5：AI大統(tǒng)一時代的到來？

推理與多模態(tài)的終極融合，將徹底終結(jié)用戶在不同模型間切換的煩惱。7月7日，OpenAI正式確認(rèn)將在今年夏季推出新一代人工智能模型GPT-5。這一突破性產(chǎn)品將整合現(xiàn)有的多個強大模型，特別是融合專注推理能力的“O系列”與具備多模態(tài)功能的“GPT系列”，為用戶提供前所未有的統(tǒng)一體驗。OpenAI開發(fā)者體驗負(fù)

標(biāo)簽：

chatgpt

中小AI企業(yè)，沒有“高考”資格

高考一結(jié)束，忙壞了海內(nèi)外一眾大模型。豆包、DeepSeek、ChatGPT、元寶、文心一言、通義千問……掀起了一波“AI趕考”大戰(zhàn)。據(jù)悉，去年高考期間，大模型的成績才勉強過一本線，今年集體晉升985。據(jù)悉，豆包甚至過了清北的錄取線。頭部大模型在高考“考場”上玩得不亦樂乎，中小AI創(chuàng)企的處境卻日益尷尬

標(biāo)簽：

ai智能
大模型搶灘高考志愿填報，能否頂替「張雪峰」們？

文/二風(fēng)來源/節(jié)點財經(jīng)每年高考成績放榜后，數(shù)千萬考生和家長將迎來另一場硬仗——填報志愿。今年，這一領(lǐng)域迎來了AI的全面介入，多家互聯(lián)網(wǎng)大廠和教育公司紛紛推出智能志愿填報產(chǎn)品，為考生提供院校和專業(yè)選擇建議。據(jù)艾媒咨詢數(shù)據(jù)，2023年中國高考志愿填報市場付費規(guī)模約9.5億元，近九成考生愿意借助志愿填報服

標(biāo)簽：

大模型
蘋果AI掉隊？現(xiàn)在唱衰或許還為時過早

蘋果還沒從WWDC25的“群嘲”中走出，又迎來了一次新的痛擊。據(jù)路透社報道，21日，蘋果公司遭到股東集體起訴，被指在信息披露中低估了將先進(jìn)生成式AI整合進(jìn)語音助手Siri所需的時間，導(dǎo)致iPhone銷量受影響、股價下滑，構(gòu)成證券欺詐。在這份訴訟中，庫克、首席財務(wù)官凱文·帕雷克及前首席財務(wù)官盧卡·馬埃

標(biāo)簽：

蘋果公司

ai智能
DeepSeek、豆包向左，盤古大模型向右

華為的盤古大模型終于推出新版本了。6月20日華為云計算CEO張平安宣布基于CloudMatrix384超節(jié)點的新一代昇騰AI云服務(wù)全面上線，盤古大模型5.5同步發(fā)布。不過，當(dāng)前國內(nèi)的AI大模型競爭可謂是相當(dāng)激烈，華為的盤古大模型在眾多大模型中并不是十分出眾。華為云此次重磅推出的盤古大模型5.5能否從

標(biāo)簽：

deepseek

豆包ai

盤古大模型

加載更多

99re6这里有精品热视频,久久综合九色欧美综合狠狠,国产精品久久久久久无毒不卡,av免费无插件在线观看,欧美放荡办公室videos

歷時400多天，國產(chǎn)大模型全面趕超GPT-4？

相關(guān)文章

大模型爭霸的下一站：不僅是超越GPT-4，更是尋求模型之間的平衡應(yīng)用

解密Kimi：大模型應(yīng)用當(dāng)紅頂流是如何練成的？

大模型的現(xiàn)在進(jìn)行時：走出對話框，走向產(chǎn)業(yè)端

李彥宏放話：百度AI大模型絕不搶開發(fā)者飯碗

360 AI員工“紅衣”入職事業(yè)部承擔(dān)多項安全運營工作

Manus官網(wǎng)突現(xiàn)“地區(qū)不可用”提示，中國區(qū)業(yè)務(wù)戰(zhàn)略性調(diào)整引關(guān)注

摩爾線程估值超 250 億，「中國英偉達(dá)」沖刺科創(chuàng)板

百川智能高管集體跑路!王小川的醫(yī)療AI還能贏嗎?

百度智能云PaddleOCR 3.1正式發(fā)布：關(guān)鍵能力支持MCP

宇樹科技加速沖刺科創(chuàng)板IPO，人形機器人龍頭估值飆至120億元

OpenAI推出GPT-5：AI大統(tǒng)一時代的到來？

中小AI企業(yè)，沒有“高考”資格

大模型搶灘高考志愿填報，能否頂替「張雪峰」們？

蘋果AI掉隊？現(xiàn)在唱衰或許還為時過早

DeepSeek、豆包向左，盤古大模型向右

熱門排行

編輯推薦

歷時400多天，國產(chǎn)大模型全面趕超GPT-4？

相關(guān)文章

熱門排行

編輯推薦

歷時400多天，國產(chǎn)大模型全面趕超GPT-4？