來(lái)源:騰訊科技
春節(jié)至今,DeepSeek的熱度持續(xù)攀升,伴隨而來(lái)的,還有很多誤解和爭(zhēng)議,有人說(shuō)它是"吊打OpenAI的國(guó)貨之光",也有人說(shuō)它"不過(guò)是抄國(guó)外大模型作業(yè)的小聰明"。
這些誤解與爭(zhēng)議主要集中在五個(gè)方面:
1、過(guò)度神話與無(wú)腦貶低,DeepSeek到底是不是底層創(chuàng)新?所謂的蒸餾ChatGPT之說(shuō)究竟有沒有依據(jù)?
2、DeepSeek的成本,真的只有550萬(wàn)美元嗎?
3、如果DeepSeek真的能做到這么高效,那么全球各大巨頭巨額的AI資本支出,是不是都打了水漂?
4、DeepSeek是否采用了PTX編程,能否真的能夠繞開對(duì)NvidiaCUDA的依賴?
5、DeepSeek全球爆火,但因?yàn)楹弦?guī)、地緣政治等問(wèn)題,會(huì)被國(guó)外陸續(xù)禁用?一、過(guò)度神話與無(wú)腦貶低 DeepSeek到底是不是底層創(chuàng)新?
互聯(lián)網(wǎng)從業(yè)者caoz認(rèn)為,它對(duì)行業(yè)發(fā)展的促進(jìn)價(jià)值是值得肯定的,但談及顛覆還為時(shí)尚早。一些專業(yè)測(cè)評(píng)來(lái)看,在一些關(guān)鍵問(wèn)題的解決上并沒有超越ChatGPT。
比如有人測(cè)試,模擬典型的小球在封閉空間的彈跳代碼,DeepSeek編寫出來(lái)的程序表現(xiàn),和ChatGPTo3-mini相比,從物理學(xué)的遵循度角度來(lái)看,還是有差距的。
不要過(guò)度神話它,但也不要無(wú)腦貶低它。
關(guān)于DeepSeek的技術(shù)成就,目前存在兩種極端觀點(diǎn):一種把它的技術(shù)突破,稱為"顛覆性革命";另一種則認(rèn)為這不過(guò)是對(duì)國(guó)外模型的模仿,甚至還有猜測(cè),它是通過(guò)蒸餾OpenAI模型獲得進(jìn)展。
微軟說(shuō)DeepSeek蒸餾了ChatGPT的結(jié)果,所以一些人也借題發(fā)揮,把DeepSeek貶低的一錢不值。
事實(shí)上,這兩種觀點(diǎn)都過(guò)于片面。
更準(zhǔn)確地說(shuō),DeepSeek的突破是一次面向產(chǎn)業(yè)痛點(diǎn)的工程范式升級(jí),為AI推理開辟“少即是多”新路徑。
它主要做了三個(gè)層面的創(chuàng)新:
首先通過(guò)訓(xùn)練架構(gòu)瘦身——例如GRPO算法通過(guò)省去傳統(tǒng)強(qiáng)化學(xué)習(xí)中必須的Critic模型(即"雙引擎"設(shè)計(jì)),將復(fù)雜算法簡(jiǎn)化為可落地執(zhí)行的工程方案;
第二,采用了簡(jiǎn)評(píng)估標(biāo)準(zhǔn),典型如在代碼生成場(chǎng)景直接用編譯結(jié)果和單元測(cè)試通過(guò)率替代人工評(píng)分,這種基于確定性的規(guī)則體系有效破解了AI訓(xùn)練中的主觀偏差難題;
最后在數(shù)據(jù)策略上找到精妙平衡點(diǎn),通過(guò)純算法自主進(jìn)化的Zero模式與僅需數(shù)千條人工標(biāo)注數(shù)據(jù)的R1模式組合,既保留模型自主進(jìn)化能力又保障人類可解釋性。
但是,這些改進(jìn)并沒有突破深度學(xué)習(xí)的理論邊界,也沒有徹底顛覆OpenAIo1/o3等頭部模型的技術(shù)范式,而是通過(guò)系統(tǒng)級(jí)優(yōu)化解決了產(chǎn)業(yè)的痛點(diǎn)。
DeepSeek完全開源并詳細(xì)記錄了這些創(chuàng)新點(diǎn),全世界都能借助這些進(jìn)展來(lái)改進(jìn)自己的AI模型訓(xùn)練。這些創(chuàng)新點(diǎn)可以從開源文件中看出。
StabilityAI前研究主管TanishqMathewAbraham在近期的博文中也強(qiáng)調(diào)了DeepSeek的三個(gè)創(chuàng)新點(diǎn):
1、多頭注意力機(jī)制:大語(yǔ)言模型通常是基于Transformer架構(gòu),使用所謂的多頭注意力(MHA)機(jī)制。DeepSeek團(tuán)隊(duì)開發(fā)了一種MHA機(jī)制的變體,這種機(jī)制既能更高效地利用內(nèi)存,又能獲得更好的性能表現(xiàn)。
2、可驗(yàn)證獎(jiǎng)勵(lì)的GRPO:DeepSeek證明了一個(gè)非常簡(jiǎn)單的強(qiáng)化學(xué)習(xí)(RL)流程實(shí)際上可以達(dá)到類似GPT-4的效果。更重要的是,他們開發(fā)了一種稱為GRPO的PPO強(qiáng)化學(xué)習(xí)算法變體,這種算法更加高效且性能更好。
3、DualPipe:在多GPU環(huán)境下訓(xùn)練AI模型時(shí),需要考慮很多效率相關(guān)的因素。DeepSeek團(tuán)隊(duì)設(shè)計(jì)了一種稱為DualPipe的新方法,這種方法的效率和速度都顯著提高。
傳統(tǒng)意義上的"蒸餾"指的是對(duì)token概率(logits)的訓(xùn)練,而ChatGPT并未開放這類數(shù)據(jù),所以基本不可能去“蒸餾”ChatGPT。
因此,從技術(shù)角度看,DeepSeek的成就不應(yīng)因此受到質(zhì)疑。由于OpenAIo1相關(guān)思維鏈推理過(guò)程從未公開,單純依靠"蒸餾"ChatGPT根本難以實(shí)現(xiàn)這一成果。
而caoz認(rèn)為,DeepSeek的訓(xùn)練中,可能部分利用了一些蒸餾的語(yǔ)料信息,或者做了少許的蒸餾驗(yàn)證,但這個(gè)對(duì)它整個(gè)模型的質(zhì)量和價(jià)值影響應(yīng)該很低。
此外,基于領(lǐng)先模型蒸餾驗(yàn)證優(yōu)化自己的模型,是很多大模型團(tuán)隊(duì)的一個(gè)常規(guī)操作,但畢竟需要聯(lián)網(wǎng)API,能獲得的信息非常有限,不太可能是決定性的影響因素,相對(duì)于海量的互聯(lián)網(wǎng)數(shù)據(jù)信息來(lái)說(shuō),通過(guò)api調(diào)用領(lǐng)先大模型能獲得的語(yǔ)料杯水車薪,合理的猜測(cè)是更多用于對(duì)策略的驗(yàn)證分析,而不是直接用作大規(guī)模訓(xùn)練。
所有大模型都需要從互聯(lián)網(wǎng)獲得語(yǔ)料訓(xùn)練,而領(lǐng)先的大模型也在不斷為互聯(lián)網(wǎng)貢獻(xiàn)語(yǔ)料,從這個(gè)角度來(lái)說(shuō),每個(gè)領(lǐng)先的大模型都擺脫不了被采集,被蒸餾的宿命,但其實(shí)也沒必要把這個(gè)當(dāng)作是決定成敗的關(guān)鍵。
最終大家都是你中有我,我中有你,迭代前進(jìn)。二、DeepSeek的成本僅有550萬(wàn)美元?
550萬(wàn)美元成本,這個(gè)結(jié)論既正確也錯(cuò)誤,因?yàn)闆]有說(shuō)清楚是什么成本。
TanishqMathewAbraham客觀估算了DeepSeek的成本:
首先,我們有必要理解這個(gè)數(shù)字是從何而來(lái)。這個(gè)數(shù)字最早出現(xiàn)在DeepSeek-V3的論文中,該論文比DeepSeek-R1的論文早發(fā)布了一個(gè)月;
DeepSeek-V3是DeepSeek-R1的基礎(chǔ)模型,這意味著DeepSeek-R1實(shí)際上就是在DeepSeek-V3的基礎(chǔ)上進(jìn)行了額外的強(qiáng)化學(xué)習(xí)訓(xùn)練。
因此,從某種意義上說(shuō),這個(gè)成本數(shù)據(jù)本身就不夠準(zhǔn)確,因?yàn)樗鼪]有計(jì)入強(qiáng)化學(xué)習(xí)訓(xùn)練的額外成本。不過(guò)這部分額外成本可能也就幾十萬(wàn)美元。
圖:DeepSeek-V3論文中關(guān)于成本的論述
那么,DeepSeek-V3論文中聲稱的550萬(wàn)美元成本是否準(zhǔn)確呢?
基于GPU成本、數(shù)據(jù)集大小和模型規(guī)模的多項(xiàng)分析都得出了類似的估算結(jié)果。值得注意的是,雖然DeepSeekV3/R1是一個(gè)擁有6710億參數(shù)的模型,但它采用了專家混合系統(tǒng)(mixture-of-experts)架構(gòu),這意味著在任何函數(shù)調(diào)用或前向傳播時(shí)只會(huì)使用約370億參數(shù),這個(gè)數(shù)值才是訓(xùn)練成本計(jì)算的基礎(chǔ)。
需要注意的是,DeepSeek報(bào)告的是基于當(dāng)前市場(chǎng)價(jià)格估算的成本。我們并不知道他們的2048個(gè)H800GPU集群(注意:不是H100,這是一個(gè)常見的誤解)實(shí)際花費(fèi)了多少。通常情況下,整批購(gòu)買GPU集群會(huì)比零散購(gòu)買便宜,所以實(shí)際成本可能更低。
但關(guān)鍵在于,這只是最終訓(xùn)練運(yùn)行的成本。在達(dá)到最終訓(xùn)練之前,還有許多小規(guī)模的實(shí)驗(yàn)和消融研究,這些都會(huì)產(chǎn)生相當(dāng)可觀的成本,而這部分成本并未在此報(bào)告中體現(xiàn)。
此外,還有其他諸多成本,比如研究人員的薪資。據(jù)SemiAnalysis報(bào)道,DeepSeek的研究人員薪資據(jù)傳高達(dá)100萬(wàn)美元。這與OpenAI或Anthropic等AGI前沿實(shí)驗(yàn)室的高端薪資水平相當(dāng)。
有人因?yàn)檫@些額外成本的存在,而否定了DeepSeek的低成本和其運(yùn)營(yíng)效率。這種說(shuō)法極不公平。因?yàn)槠渌麬I公司在人員上也會(huì)花費(fèi)大量的薪資,這通常都沒有被計(jì)算到模型的成本中去!
Semianalysis(一家專注半導(dǎo)體和人工智能的獨(dú)立研究與分析公司)也給出了DeepSeek的AITCO(人工智能領(lǐng)域中的總成本)分析,這張表總結(jié)了DeepSeekAI在使用四種不同型號(hào)GPU(A100、H20、H800和H100)時(shí)的總成本情況,包括買設(shè)備、建服務(wù)器和運(yùn)營(yíng)的費(fèi)用。按照四年周期來(lái)算,這60,000塊GPU的總花費(fèi)是25.73億美元,其中主要是買服務(wù)器的費(fèi)用(16.29億美元)和運(yùn)營(yíng)的費(fèi)用(9.44億美元)。
當(dāng)然,外界沒有人準(zhǔn)確知道DeepSeek究竟擁有多少卡以及各個(gè)型號(hào)的占比究竟有多少,所有的一切都只是估算。
總結(jié)來(lái)說(shuō),如果把所有的設(shè)備、服務(wù)器、運(yùn)營(yíng)等成本全部算下來(lái),成本肯定遠(yuǎn)超550萬(wàn)美元,但是,550萬(wàn)美元的凈算力成本,已經(jīng)十分高效。三、巨額資本支出投資算力 只是巨大的浪費(fèi)?
這是一個(gè)廣為流傳但相當(dāng)片面的觀點(diǎn)。確實(shí),DeepSeek在訓(xùn)練效率上展現(xiàn)出了優(yōu)勢(shì),也暴露出一些頭部的AI公司在計(jì)算資源使用上可能存在效率問(wèn)題。甚至英偉達(dá)短期的暴跌也可能也與這個(gè)誤讀廣為流傳有關(guān)。
但這并不意味著擁有更多計(jì)算資源是一件壞事。從ScalingLaws(擴(kuò)展定律)的角度來(lái)看,更多的計(jì)算能力始終意味著更好的性能。自2017年Transformer架構(gòu)問(wèn)世以來(lái),這一趨勢(shì)一直延續(xù),而DeepSeek的模型,也是基于Transformer架構(gòu)的。
AI發(fā)展的重點(diǎn)雖然在不斷演變——從最初的模型規(guī)模,到數(shù)據(jù)集大小,再到現(xiàn)在的推理計(jì)算和合成數(shù)據(jù),但"更多計(jì)算等于更好性能"的核心規(guī)律并未改變。
雖然DeepSeek找到了一個(gè)更高效的路徑,規(guī)模定律依然有效,但是,更多的計(jì)算資源,仍然能獲得更好的效果。四、DeepSeek是否采用了PTX 繞過(guò)了對(duì)NVIDIACUDA的依賴?
DeepSeek的論文中提到了DeepSeek采用了PTX(ParallelThreadExecution)編程,通過(guò)這樣的一個(gè)定制的PTX優(yōu)化,使DeepSeek的系統(tǒng)和模型可以更好釋放底層硬件的性能。
論文的原文如下:
“weemploycustomizedPTX(ParallelThreadExecution)instructionsandauto-tunethecommunicationchunksize,whichsignificantlyreducestheuseoftheL2cacheandtheinterferencetootherSMs!薄拔覀儾捎枚ㄖ频腜TX(并行線程執(zhí)行)指令并自動(dòng)調(diào)整通信塊大小,這大大減少了L2緩存的使用和對(duì)其他SM的干擾!
這段內(nèi)容,網(wǎng)絡(luò)上流傳著兩個(gè)解讀,一種聲音認(rèn)為,這是為了“繞開CUDA壟斷”;另外一種聲音是,因?yàn)镈eepSeek無(wú)法獲得最高端的芯片,為了解決H800GPU互聯(lián)帶寬受限的問(wèn)題,不得不下沉到更低一層,來(lái)提升跨芯片通信能力。
上海交通大學(xué)副教授戴國(guó)浩認(rèn)為,這兩種說(shuō)法都不太準(zhǔn)確。首先,PTX(并行線程執(zhí)行)指令實(shí)際上是位于CUDA驅(qū)動(dòng)層內(nèi)部的一個(gè)組件,它仍然依賴于CUDA生態(tài)系統(tǒng)。所以,用PTX繞過(guò)CUDA的壟斷這種說(shuō)法是錯(cuò)誤的。
戴國(guó)浩教授用一張PPT清晰地解釋了PTX和CUDA的關(guān)系:
PPT系上海交通大學(xué)副教授戴國(guó)浩制作
CUDA是一個(gè)相對(duì)更上層的接口,提供了面向用戶的一系列編程接口。而PTX一般被隱藏在了CUDA的驅(qū)動(dòng)中,所以幾乎所有的深度學(xué)習(xí)或大模型算法工程師是不會(huì)接觸到這一層。
那為什么這一層會(huì)很重要呢?原因是在于可以看到從這個(gè)身位上,PTX是直接和底層的硬件去發(fā)生交互的,能夠?qū)崿F(xiàn)對(duì)底層硬件更好的編程和調(diào)用。
用通俗的話來(lái)講,DeepSeek這種優(yōu)化方案并不是在芯片受限的現(xiàn)實(shí)條件下的不得已為之,而是主動(dòng)做的優(yōu)化,不管芯片用的是H800還是H100,這種方法都能夠提高通信互聯(lián)效率。五、DeepSeek會(huì)被國(guó)外禁用嗎?
DeepSeek爆火之后,英偉達(dá)、微軟、英特爾、AMD、AWS五大云巨頭都上架或集成了DeepSeek,國(guó)內(nèi)來(lái)看,華為、騰訊、百度、阿里、火山引擎也都支持部署了DeepSeek。
但是,網(wǎng)絡(luò)上有一些過(guò)度情緒化的言論,一方面是,國(guó)外云巨頭上架了DeepSeek,“老外被打服了”。
其實(shí),這些公司對(duì)于DeepSeek的部署,更多是因?yàn)樯虡I(yè)的考量。作為云廠商,盡可能多地支持部署最受歡迎、及能力最強(qiáng)的模型,可以為客戶提供更好的服務(wù),同時(shí),也能蹭一波與DeepSeek相關(guān)的流量,或許也會(huì)帶來(lái)一部分的新用戶轉(zhuǎn)化。
在DeepSeek大熱的時(shí)候集中部署是真,但是對(duì)DeepSeek情有獨(dú)鐘或者是“被打服”等說(shuō)法卻過(guò)分夸大了。
更有甚者,編造出了DeepSeek遭受攻擊之后,中國(guó)科技圈組成復(fù)仇者聯(lián)盟,共同馳援DeepSeek的說(shuō)法。
另外一方面,還有聲音說(shuō),因?yàn)榈鼐壵蔚痊F(xiàn)實(shí)原因,很快國(guó)外就會(huì)陸續(xù)禁止DeepSeek使用。
對(duì)此,caoz給出了比較清晰的解讀:其實(shí)我們所說(shuō)的DeepSeek,實(shí)際上包括了兩個(gè)產(chǎn)品,一個(gè)是DeepSeek這個(gè)風(fēng)靡世界的App,另一個(gè)是github上的開源代碼庫(kù)。前者可以認(rèn)為是后者的Demo,一個(gè)完整的能力展示。而后者,也許會(huì)成長(zhǎng)為一個(gè)蓬勃的開源生態(tài)。
被限制使用的,是DeepSeek的App,而巨頭接入和提供的,是DeepSeek開源軟件的部署。這完全是兩件事。
DeepSeek以"中國(guó)大模型"的姿態(tài)闖入全球AI競(jìng)技場(chǎng),且采用了最大氣的開源協(xié)議——MITLicense,甚至允許商用。目前對(duì)它的討論已經(jīng)遠(yuǎn)遠(yuǎn)超越了技術(shù)創(chuàng)新的范疇,但技術(shù)的進(jìn)步從來(lái)不是非黑即白的對(duì)錯(cuò)之爭(zhēng)。與其陷入過(guò)度吹捧或全盤否定,不如讓時(shí)間和市場(chǎng)檢驗(yàn)其真實(shí)價(jià)值。畢竟,在AI這場(chǎng)馬拉松中,真正的競(jìng)爭(zhēng)才剛剛開始。
參考資料:
《關(guān)于deepseek的一些普遍誤讀》作者:caoz
https://mp.weixin.qq.com/s/Uc4mo5U9CxVuZ0AaaNNi5g
《DeepSeek最強(qiáng)專業(yè)拆解來(lái)了,清交復(fù)教授超硬核解讀》作者:ZeR0
https://mp.weixin.qq.com/s/LsMOIgQinPZBnsga0imcvA
DebunkingDeepSeekDelusions 作者:StabilityAI前研究主管TanishqMathewAbraham
https://www.tanishq.ai/blog/posts/deepseek-delusions.html
免責(zé)聲明:為DeepSeek辟謠:五大誤解與真相解讀文章轉(zhuǎn)發(fā)自互聯(lián)網(wǎng),版權(quán)歸其所有。
文章內(nèi)容不代表本站立場(chǎng)和任何投資暗示。加密貨幣市場(chǎng)極其波動(dòng),風(fēng)險(xiǎn)很高,可能不適合所有投資者。在投資加密貨幣之前,請(qǐng)確保自己充分了解市場(chǎng)和投資的風(fēng)險(xiǎn),并考慮自己的財(cái)務(wù)狀況和風(fēng)險(xiǎn)承受能力。此外,請(qǐng)遵循您所在國(guó)家的法律法規(guī),以及遵守交易所和錢包提供商的規(guī)定。對(duì)于任何因使用加密貨幣所造成的投資損失或其他損失,本站不承擔(dān)任何責(zé)任。
Copyright © 2021.Company 元宇宙YITB.COM All rights reserved.元宇宙YITB.COM