昨晚,終于等到了DeepSeek-R1-0528官宣。升級后的模型性能直逼o3和Gemini 2.5 Pro。如今,DeepSeek真正坐實(shí)了全球開源王者的稱號,并成為了第二大AI實(shí)驗(yàn)室。
昨晚,DeepSeek正式官宣R1已完成小版本升級,開啟「深度思考」功能即可體驗(yàn)。
在多項(xiàng)基準(zhǔn)測試中,DeepSeek-R1-0528的數(shù)學(xué)、編程、通用邏輯性能,足以媲美最強(qiáng)o3和Gemini 2.5 Pro。
而且,它還成為國內(nèi)首屈一指的開源模型,全面超越Qwen3-235B。
除了性能刷新SOTA,此次R1的更新,還體現(xiàn)在了其他三方面:
前端代碼生成能力增強(qiáng)
幻覺率降低45%-50%
支持JSON輸出和函數(shù)調(diào)用
不僅如此,DeepSeek官方基于Qwen3-8B Base微調(diào)了更強(qiáng)版本——DeepSeek-R1-0528-Qwen3-8B。
這款8B模型在AIME 2024上,性能僅次于DeepSeek-R1-0528,甚至可與Qwen3-235B-thinking一較高下。
如今,DeepSeek不僅穩(wěn)坐世界開源頭把交椅,而且還成為了全球第二大AI實(shí)驗(yàn)室。
DeepSeek-R1迭代后推理更強(qiáng),不過已有網(wǎng)友迫不及待催更R2了。
DeepSeek-R1數(shù)學(xué)編程更強(qiáng)了
HF模型卡中,DeepSeek具體公布了模型的更多的細(xì)節(jié)和性能對比。
DeepSeek-R1-0528是以DeepSeek V3 Base(2024年12月)為基座進(jìn)行訓(xùn)練。
模型地址:https://huggingface.co/deepseek-ai/DeepSeek-R1-0528
在后訓(xùn)練階段,R1投入了更多計算資源,并引入了算法優(yōu)化機(jī)制,顯著提升了模型的思維深度與推理能力。
如上所述,在數(shù)學(xué)、編程、通用邏輯等多項(xiàng)基準(zhǔn)測試中,DeepSeek-R1展現(xiàn)出卓越的性能。
相較于上一代,0528版本在處理復(fù)雜推理任務(wù)方面取得了顯著進(jìn)步。比如,在AIME 2025測試中,R1準(zhǔn)確率從70%提升到87.5%。
這一性能的提升,源于推理過程中思維深度的增強(qiáng)。
在AIME測試集中,DeepSeek-R1平均每個問題消耗12K token,而DeepSeek-R1-0528平均每個問題使用23K token。
在外部多語言Aider基準(zhǔn)測試,結(jié)果顯示,DeepSeek-R1-0528達(dá)到了與Claude 4 Opus相當(dāng)?shù)乃?,Pass@2得分為70.7%。
幻覺率暴減50%
此前,有很多報道分析稱,DeepSeek-R1雖比V3強(qiáng),但幻覺率極高。
根據(jù)Vectara的測試,DeepSeek-R1幻覺率高達(dá)14.3%,比o3高出不少。
這一次,經(jīng)過優(yōu)化,與初代相比,DeepSeek-R1-0528的幻覺率降低了45%-50%。
尤其是,在改寫潤色、總結(jié)摘要、閱讀理解等場景中,新模型能提供更加準(zhǔn)確、可靠的結(jié)果。
而且,DeepSeek-R1還專門針對論文、小說、散文等問題,進(jìn)行了進(jìn)一步優(yōu)化。
由此,它能夠輸出篇幅更長、結(jié)構(gòu)內(nèi)容更完整的長篇大作,更加貼近人類偏好的寫作風(fēng)格。
艾倫研究所Nathan Lambert通過實(shí)驗(yàn)發(fā)現(xiàn),R1-0528在編譯智能體基準(zhǔn)上,表現(xiàn)非常穩(wěn)健。
支持工具調(diào)用
值得一提的是,DeepSeek-R1-0528還可以支持工具調(diào)用。
比如,讓它總結(jié)一篇文章,附上一個鏈接后,模型會主動調(diào)用爬蟲插件獲取網(wǎng)頁內(nèi)容,然后進(jìn)行總結(jié)。
它在Tau-Bench的測評成績?yōu)閍irline 53.5%/retail 63.9%,與o1-high性能相當(dāng),但與o3-High、Claude 4 Sonnet仍有一定的差距。
圖源:DeepSeek
在前端代碼生成、角色扮演等方面,DeepSeek-R1-0528能力得到了進(jìn)一步提升。
比如,制作一張英文單詞的復(fù)習(xí)卡片應(yīng)用,短短幾分鐘,一個完整的APP就呈現(xiàn)了,包括復(fù)習(xí)卡片、搜索卡片、學(xué)習(xí)統(tǒng)計、創(chuàng)建卡片基本功能一應(yīng)俱全。
而且,DeepSeek-R1函數(shù)調(diào)用支持增強(qiáng),還為氛圍編程(vibe coding)提供了更流暢的體驗(yàn)。
圖源:DeepSeek
DeepSeek蒸餾版Qwen3-8B來了
在R1更新升級的同時,DeepSeek還蒸餾了DeepSeek-R1-0528的思維鏈,然后訓(xùn)練了Qwen3-8B Base,最后得到了DeepSeek-R1-0528-Qwen3-8B。
DeepSeek表示,DeepSeek-R1-0528的思維鏈對于學(xué)術(shù)界推理模型的研究和工業(yè)界針對小模型的開發(fā)都將具有重要意義。
DeepSeek-R1-0528-Qwen3-8B模型在數(shù)學(xué)測試AIME 2024中僅次于DeepSeek-R1-0528,超越Qwen3-8B(+10.0%),與Qwen3-235B相當(dāng)。
這個結(jié)果還是挺夸張的,畢竟與Qwen3-235B相比,8B的模型在參數(shù)上相差將近30倍。
同時DeepSeek-R1-0528-Qwen3-8B的數(shù)學(xué)性能也強(qiáng)于最近的Phi-4 14B。
DeepSeek-R1-0528-Qwen3-8B等開源模型的AIME 2024對比結(jié)果
在數(shù)學(xué)性能上,DeepSeek-R1-0528-Qwen3-8B甚至超越了Gemini-2.5-Flash。
DeepSeek-R1-0528-Qwen3-8B等不同模型在多個基準(zhǔn)測試中的性能
目前,這款8B蒸餾模型也已同步在Hugging Face上開源。
模型地址:https://huggingface.co/deepseek-ai/DeepSeek-R1-0528-Qwen3-8B
全球第二大AI實(shí)驗(yàn)室
榮光屬于DeepSeek
就在DeepSeek R1更新后不久,獨(dú)立AI分析網(wǎng)站Artificial Analysis發(fā)帖表示,DeepSeek的R1強(qiáng)勢超越xAI、Meta和Anthropic。
這使得DeepSeek一躍成為全球第二大AI實(shí)驗(yàn)室,并無可爭議的成為開源模型的領(lǐng)導(dǎo)者。
DeepSeek-R1-0528在智能指數(shù)中從60分躍升至68分,提升幅度與OpenAI的o1到o3(62分到70分)進(jìn)步相當(dāng)。
這使得DeepSeek R1的智能水平超過了xAI的Grok 3 mini(High)、NVIDIA的Llama Nemotron Ultra、Meta的Llama 4 Maverick、阿里的Qwen 3 253B,與谷歌的Gemini 2.5 Pro并駕齊驅(qū)。
這些進(jìn)步給AI領(lǐng)域帶來了不少的啟示:
開源與閉源模型差距縮小:DeepSeek今年1月的R1發(fā)布首次讓開源模型登上第二位,這次的R1更新再次鞏固了這一地位。
中國與美國AI并駕齊驅(qū):來自中國AI實(shí)驗(yàn)室的模型幾乎完全趕上了美國。目前,DeepSeek在人工智能分析智能指數(shù)中領(lǐng)先于美國AI實(shí)驗(yàn)室如Anthropic和Meta。
強(qiáng)化學(xué)習(xí)驅(qū)動進(jìn)步:DeepSeek在相同架構(gòu)和預(yù)訓(xùn)練基礎(chǔ)上展示了顯著的智能提升。這凸顯了后訓(xùn)練的重要性,尤其是通過RL技術(shù)訓(xùn)練的推理模型。OpenAI披露o1到o3的RL計算規(guī)模擴(kuò)大了10倍——DeepSeek證明了他們目前能跟上OpenAI的RL計算擴(kuò)展。擴(kuò)展RL比擴(kuò)展預(yù)訓(xùn)練需要的計算資源更少,是實(shí)現(xiàn)智能提升的高效方式,更適合GPU較少的AI實(shí)驗(yàn)室。
訪談
更多做行業(yè)賦能者 HID迎接數(shù)字化浪潮新機(jī)遇 破解新挑戰(zhàn)
今年3月份,全球可信身份解決方案提供商HID發(fā)布了最新的《安防行業(yè)現(xiàn)狀報告》(以下簡稱“報告”),該報告…
數(shù)字化浪潮下,安防廠商如何滿足行業(yè)客戶的定制化需求?
回顧近兩年,受疫情因素影響,包括安防在內(nèi)的諸多行業(yè)領(lǐng)域都遭受了來自市場 “不確定性”因素的沖擊,市場…
博思高鄧紹昌:乘產(chǎn)品創(chuàng)新及客戶服務(wù)之舟,在市場變革中逆風(fēng)飛揚(yáng)
11月24日,由慧聰物聯(lián)網(wǎng)、慧聰安防網(wǎng)、慧聰電子網(wǎng)主辦的2022(第十九屆)中國物聯(lián)網(wǎng)產(chǎn)業(yè)大會暨品牌盛會,在深…