見證歷史！DeepSeek躍居全球第二AI實(shí)驗(yàn)室，R1登頂開源王座，R2全網(wǎng)催更

2025-06-03 09:46 | 來源：安防行業(yè)網(wǎng)

中國與美國AI并駕齊驅(qū)：來自中國AI實(shí)驗(yàn)室的模型幾乎完全趕上了美國。目前，DeepSeek在人工智能分析智能指數(shù)中領(lǐng)先于美國AI實(shí)驗(yàn)室如Anthropic和Meta。

昨晚，終于等到了DeepSeek-R1-0528官宣。升級(jí)后的模型性能直逼o3和Gemini 2.5 Pro。如今，DeepSeek真正坐實(shí)了全球開源王者的稱號(hào)，并成為了第二大AI實(shí)驗(yàn)室。

昨晚，DeepSeek正式官宣R1已完成小版本升級(jí)，開啟「深度思考」功能即可體驗(yàn)。

在多項(xiàng)基準(zhǔn)測試中，DeepSeek-R1-0528的數(shù)學(xué)、編程、通用邏輯性能，足以媲美最強(qiáng)o3和Gemini 2.5 Pro。

而且，它還成為國內(nèi)首屈一指的開源模型，全面超越Qwen3-235B。

除了性能刷新SOTA，此次R1的更新，還體現(xiàn)在了其他三方面：

前端代碼生成能力增強(qiáng)

幻覺率降低45%-50%

支持JSON輸出和函數(shù)調(diào)用

不僅如此，DeepSeek官方基于Qwen3-8B Base微調(diào)了更強(qiáng)版本——DeepSeek-R1-0528-Qwen3-8B。

這款8B模型在AIME 2024上，性能僅次于DeepSeek-R1-0528，甚至可與Qwen3-235B-thinking一較高下。

如今，DeepSeek不僅穩(wěn)坐世界開源頭把交椅，而且還成為了全球第二大AI實(shí)驗(yàn)室。

DeepSeek-R1迭代后推理更強(qiáng)，不過已有網(wǎng)友迫不及待催更R2了。

DeepSeek-R1數(shù)學(xué)編程更強(qiáng)了

HF模型卡中，DeepSeek具體公布了模型的更多的細(xì)節(jié)和性能對比。

DeepSeek-R1-0528是以DeepSeek V3 Base（2024年12月）為基座進(jìn)行訓(xùn)練。

模型地址：https://huggingface.co/deepseek-ai/DeepSeek-R1-0528

在后訓(xùn)練階段，R1投入了更多計(jì)算資源，并引入了算法優(yōu)化機(jī)制，顯著提升了模型的思維深度與推理能力。

如上所述，在數(shù)學(xué)、編程、通用邏輯等多項(xiàng)基準(zhǔn)測試中，DeepSeek-R1展現(xiàn)出卓越的性能。

相較于上一代，0528版本在處理復(fù)雜推理任務(wù)方面取得了顯著進(jìn)步。比如，在AIME 2025測試中，R1準(zhǔn)確率從70%提升到87.5%。

這一性能的提升，源于推理過程中思維深度的增強(qiáng)。

在AIME測試集中，DeepSeek-R1平均每個(gè)問題消耗12K token，而DeepSeek-R1-0528平均每個(gè)問題使用23K token。

在外部多語言Aider基準(zhǔn)測試，結(jié)果顯示，DeepSeek-R1-0528達(dá)到了與Claude 4 Opus相當(dāng)?shù)乃?，Pass@2得分為70.7%。

幻覺率暴減50%

此前，有很多報(bào)道分析稱，DeepSeek-R1雖比V3強(qiáng)，但幻覺率極高。

根據(jù)Vectara的測試，DeepSeek-R1幻覺率高達(dá)14.3%，比o3高出不少。

這一次，經(jīng)過優(yōu)化，與初代相比，DeepSeek-R1-0528的幻覺率降低了45%-50%。

尤其是，在改寫潤色、總結(jié)摘要、閱讀理解等場景中，新模型能提供更加準(zhǔn)確、可靠的結(jié)果。

而且，DeepSeek-R1還專門針對論文、小說、散文等問題，進(jìn)行了進(jìn)一步優(yōu)化。

由此，它能夠輸出篇幅更長、結(jié)構(gòu)內(nèi)容更完整的長篇大作，更加貼近人類偏好的寫作風(fēng)格。

艾倫研究所Nathan Lambert通過實(shí)驗(yàn)發(fā)現(xiàn)，R1-0528在編譯智能體基準(zhǔn)上，表現(xiàn)非常穩(wěn)健。

支持工具調(diào)用

值得一提的是，DeepSeek-R1-0528還可以支持工具調(diào)用。

比如，讓它總結(jié)一篇文章，附上一個(gè)鏈接后，模型會(huì)主動(dòng)調(diào)用爬蟲插件獲取網(wǎng)頁內(nèi)容，然后進(jìn)行總結(jié)。

它在Tau-Bench的測評成績?yōu)閍irline 53.5%/retail 63.9%，與o1-high性能相當(dāng)，但與o3-High、Claude 4 Sonnet仍有一定的差距。

圖源：DeepSeek

在前端代碼生成、角色扮演等方面，DeepSeek-R1-0528能力得到了進(jìn)一步提升。

比如，制作一張英文單詞的復(fù)習(xí)卡片應(yīng)用，短短幾分鐘，一個(gè)完整的APP就呈現(xiàn)了，包括復(fù)習(xí)卡片、搜索卡片、學(xué)習(xí)統(tǒng)計(jì)、創(chuàng)建卡片基本功能一應(yīng)俱全。

而且，DeepSeek-R1函數(shù)調(diào)用支持增強(qiáng)，還為氛圍編程（vibe coding）提供了更流暢的體驗(yàn)。

圖源：DeepSeek

DeepSeek蒸餾版Qwen3-8B來了

在R1更新升級(jí)的同時(shí)，DeepSeek還蒸餾了DeepSeek-R1-0528的思維鏈，然后訓(xùn)練了Qwen3-8B Base，最后得到了DeepSeek-R1-0528-Qwen3-8B。

DeepSeek表示，DeepSeek-R1-0528的思維鏈對于學(xué)術(shù)界推理模型的研究和工業(yè)界針對小模型的開發(fā)都將具有重要意義。

DeepSeek-R1-0528-Qwen3-8B模型在數(shù)學(xué)測試AIME 2024中僅次于DeepSeek-R1-0528，超越Qwen3-8B（+10.0%），與Qwen3-235B相當(dāng)。

這個(gè)結(jié)果還是挺夸張的，畢竟與Qwen3-235B相比，8B的模型在參數(shù)上相差將近30倍。

同時(shí)DeepSeek-R1-0528-Qwen3-8B的數(shù)學(xué)性能也強(qiáng)于最近的Phi-4 14B。

DeepSeek-R1-0528-Qwen3-8B等開源模型的AIME 2024對比結(jié)果

在數(shù)學(xué)性能上，DeepSeek-R1-0528-Qwen3-8B甚至超越了Gemini-2.5-Flash。

DeepSeek-R1-0528-Qwen3-8B等不同模型在多個(gè)基準(zhǔn)測試中的性能

目前，這款8B蒸餾模型也已同步在Hugging Face上開源。

模型地址：https://huggingface.co/deepseek-ai/DeepSeek-R1-0528-Qwen3-8B

全球第二大AI實(shí)驗(yàn)室

榮光屬于DeepSeek

就在DeepSeek R1更新后不久，獨(dú)立AI分析網(wǎng)站Artificial Analysis發(fā)帖表示，DeepSeek的R1強(qiáng)勢超越xAI、Meta和Anthropic。

這使得DeepSeek一躍成為全球第二大AI實(shí)驗(yàn)室，并無可爭議的成為開源模型的領(lǐng)導(dǎo)者。

DeepSeek-R1-0528在智能指數(shù)中從60分躍升至68分，提升幅度與OpenAI的o1到o3（62分到70分）進(jìn)步相當(dāng)。

這使得DeepSeek R1的智能水平超過了xAI的Grok 3 mini（High）、NVIDIA的Llama Nemotron Ultra、Meta的Llama 4 Maverick、阿里的Qwen 3 253B，與谷歌的Gemini 2.5 Pro并駕齊驅(qū)。

這些進(jìn)步給AI領(lǐng)域帶來了不少的啟示：

開源與閉源模型差距縮?。篋eepSeek今年1月的R1發(fā)布首次讓開源模型登上第二位，這次的R1更新再次鞏固了這一地位。

強(qiáng)化學(xué)習(xí)驅(qū)動(dòng)進(jìn)步：DeepSeek在相同架構(gòu)和預(yù)訓(xùn)練基礎(chǔ)上展示了顯著的智能提升。這凸顯了后訓(xùn)練的重要性，尤其是通過RL技術(shù)訓(xùn)練的推理模型。OpenAI披露o1到o3的RL計(jì)算規(guī)模擴(kuò)大了10倍——DeepSeek證明了他們目前能跟上OpenAI的RL計(jì)算擴(kuò)展。擴(kuò)展RL比擴(kuò)展預(yù)訓(xùn)練需要的計(jì)算資源更少，是實(shí)現(xiàn)智能提升的高效方式，更適合GPU較少的AI實(shí)驗(yàn)室。

THE END

免責(zé)聲明：本站所使用的字體和圖片文字等素材部分來源于互聯(lián)網(wǎng)共享平臺(tái)。如使用任何字體和圖片文字有冒犯其版權(quán)所有方的，皆為無意。如您是字體廠商、圖片文字廠商等版權(quán)方，且不允許本站使用您的字體和圖片文字等素材，請聯(lián)系我們，本站核實(shí)后將立即刪除！任何版權(quán)方從未通知聯(lián)系本站管理者停止使用，并索要賠償或上訴法院的，均視為新型網(wǎng)絡(luò)碰瓷及敲詐勒索，將不予任何的法律和經(jīng)濟(jì)賠償！敬請諒解！

相關(guān)閱讀

展會(huì)預(yù)告

新品

多模態(tài)大模型產(chǎn)品亮相，海康威視發(fā)布文搜存儲(chǔ)系列產(chǎn)品
近日，?？低暬谟^瀾大模型技術(shù)體系，將大參數(shù)量、大樣本量的圖文多模態(tài)大模型與嵌入式智能硬件深度融合…
飛凌微推出AIoT應(yīng)用系列高性能端側(cè)視覺AI SoC芯片A1
誤報(bào)率降低90%以上！?？低暟l(fā)布視覺大模型周界攝像機(jī)
更準(zhǔn)！?？低暟l(fā)布大模型交通卡口抓拍系列產(chǎn)品
飛凌微推出AIoT應(yīng)用系列高性能端側(cè)視覺AI SoC芯片A1
多模態(tài)大模型產(chǎn)品亮相，?？低暟l(fā)布文搜存儲(chǔ)系列產(chǎn)品

訪談

做行業(yè)賦能者 HID迎接數(shù)字化浪潮新機(jī)遇破解新挑戰(zhàn)

今年3月份，全球可信身份解決方案提供商HID發(fā)布了最新的《安防行業(yè)現(xiàn)狀報(bào)告》（以下簡稱“報(bào)告”），該報(bào)告…
數(shù)字化浪潮下，安防廠商如何滿足行業(yè)客戶的定制化需求?

回顧近兩年，受疫情因素影響，包括安防在內(nèi)的諸多行業(yè)領(lǐng)域都遭受了來自市場 “不確定性”因素的沖擊，市場…
博思高鄧紹昌：乘產(chǎn)品創(chuàng)新及客戶服務(wù)之舟，在市場變革中逆風(fēng)飛揚(yáng)

11月24日，由慧聰物聯(lián)網(wǎng)、慧聰安防網(wǎng)、慧聰電子網(wǎng)主辦的2022(第十九屆)中國物聯(lián)網(wǎng)產(chǎn)業(yè)大會(huì)暨品牌盛會(huì)，在深…

企業(yè)

芯科科技成為全球首家通過PSA 4級(jí)認(rèn)證的物聯(lián)網(wǎng)芯片廠商
芯科科技今日宣布，其第三代無線開發(fā)平臺(tái)首款產(chǎn)品SiXG301 SoC中3系列(Series 3)的Secure Vault安全子系統(tǒng)率…
芯科科技成為全球首家通過PSA 4級(jí)認(rèn)證的物聯(lián)網(wǎng)芯片廠商
VORTEX 智能視頻監(jiān)控助力馬里蘭州露營基地安全管理
思特威推出智能安防應(yīng)用4MP近紅外增強(qiáng)圖像傳感器新品
螢石網(wǎng)絡(luò)2025半年報(bào)：增速微調(diào)，鋒芒不減，AI生態(tài)與產(chǎn)能雙翼待飛
千方為中國商飛開發(fā)“試飛安全風(fēng)險(xiǎn)量化評估系統(tǒng)”通過驗(yàn)收！

見證歷史！DeepSeek躍居全球第二AI實(shí)驗(yàn)室，R1登頂開源王座，R2全網(wǎng)催更

見證歷史！DeepSeek躍居全球第二AI實(shí)驗(yàn)室，R1登頂開源王座，R2全網(wǎng)催更