奇米超碰,黄色人妖一级大,欧美亚洲人妻综合,大香蕉一区二区二区四区五区

  • 元宇宙:本站分享元宇宙相關(guān)資訊,資訊僅代表作者觀點(diǎn)與平臺(tái)立場(chǎng)無(wú)關(guān),僅供參考.

為DeepSeek辟謠:五大誤解與真相解讀

  • 2025年2月09日 01:33

來(lái)源:騰訊科技

春節(jié)至今,DeepSeek的熱度持續(xù)攀升,伴隨而來(lái)的,還有很多誤解和爭(zhēng)議,有人說(shuō)它是"吊打OpenAI的國(guó)貨之光",也有人說(shuō)它"不過(guò)是抄國(guó)外大模型作業(yè)的小聰明"。

這些誤解與爭(zhēng)議主要集中在五個(gè)方面:

1、過(guò)度神話與無(wú)腦貶低,DeepSeek到底是不是底層創(chuàng)新?所謂的蒸餾ChatGPT之說(shuō)究竟有沒有依據(jù)?

2、DeepSeek的成本,真的只有550萬(wàn)美元嗎?

3、如果DeepSeek真的能做到這么高效,那么全球各大巨頭巨額的AI資本支出,是不是都打了水漂?

4、DeepSeek是否采用了PTX編程,能否真的能夠繞開對(duì)NvidiaCUDA的依賴?

5、DeepSeek全球爆火,但因?yàn)楹弦?guī)、地緣政治等問(wèn)題,會(huì)被國(guó)外陸續(xù)禁用?一、過(guò)度神話與無(wú)腦貶低 DeepSeek到底是不是底層創(chuàng)新?

互聯(lián)網(wǎng)從業(yè)者caoz認(rèn)為,它對(duì)行業(yè)發(fā)展的促進(jìn)價(jià)值是值得肯定的,但談及顛覆還為時(shí)尚早。一些專業(yè)測(cè)評(píng)來(lái)看,在一些關(guān)鍵問(wèn)題的解決上并沒有超越ChatGPT。

比如有人測(cè)試,模擬典型的小球在封閉空間的彈跳代碼,DeepSeek編寫出來(lái)的程序表現(xiàn),和ChatGPTo3-mini相比,從物理學(xué)的遵循度角度來(lái)看,還是有差距的。

不要過(guò)度神話它,但也不要無(wú)腦貶低它。

關(guān)于DeepSeek的技術(shù)成就,目前存在兩種極端觀點(diǎn):一種把它的技術(shù)突破,稱為"顛覆性革命";另一種則認(rèn)為這不過(guò)是對(duì)國(guó)外模型的模仿,甚至還有猜測(cè),它是通過(guò)蒸餾OpenAI模型獲得進(jìn)展。

微軟說(shuō)DeepSeek蒸餾了ChatGPT的結(jié)果,所以一些人也借題發(fā)揮,把DeepSeek貶低的一錢不值。

事實(shí)上,這兩種觀點(diǎn)都過(guò)于片面。

更準(zhǔn)確地說(shuō),DeepSeek的突破是一次面向產(chǎn)業(yè)痛點(diǎn)的工程范式升級(jí),為AI推理開辟“少即是多”新路徑。

它主要做了三個(gè)層面的創(chuàng)新:

首先通過(guò)訓(xùn)練架構(gòu)瘦身——例如GRPO算法通過(guò)省去傳統(tǒng)強(qiáng)化學(xué)習(xí)中必須的Critic模型(即"雙引擎"設(shè)計(jì)),將復(fù)雜算法簡(jiǎn)化為可落地執(zhí)行的工程方案;

第二,采用了簡(jiǎn)評(píng)估標(biāo)準(zhǔn),典型如在代碼生成場(chǎng)景直接用編譯結(jié)果和單元測(cè)試通過(guò)率替代人工評(píng)分,這種基于確定性的規(guī)則體系有效破解了AI訓(xùn)練中的主觀偏差難題;

最后在數(shù)據(jù)策略上找到精妙平衡點(diǎn),通過(guò)純算法自主進(jìn)化的Zero模式與僅需數(shù)千條人工標(biāo)注數(shù)據(jù)的R1模式組合,既保留模型自主進(jìn)化能力又保障人類可解釋性。

但是,這些改進(jìn)并沒有突破深度學(xué)習(xí)的理論邊界,也沒有徹底顛覆OpenAIo1/o3等頭部模型的技術(shù)范式,而是通過(guò)系統(tǒng)級(jí)優(yōu)化解決了產(chǎn)業(yè)的痛點(diǎn)。

DeepSeek完全開源并詳細(xì)記錄了這些創(chuàng)新點(diǎn),全世界都能借助這些進(jìn)展來(lái)改進(jìn)自己的AI模型訓(xùn)練。這些創(chuàng)新點(diǎn)可以從開源文件中看出。

StabilityAI前研究主管TanishqMathewAbraham在近期的博文中也強(qiáng)調(diào)了DeepSeek的三個(gè)創(chuàng)新點(diǎn):

1、多頭注意力機(jī)制:大語(yǔ)言模型通常是基于Transformer架構(gòu),使用所謂的多頭注意力(MHA)機(jī)制。DeepSeek團(tuán)隊(duì)開發(fā)了一種MHA機(jī)制的變體,這種機(jī)制既能更高效地利用內(nèi)存,又能獲得更好的性能表現(xiàn)。

2、可驗(yàn)證獎(jiǎng)勵(lì)的GRPO:DeepSeek證明了一個(gè)非常簡(jiǎn)單的強(qiáng)化學(xué)習(xí)(RL)流程實(shí)際上可以達(dá)到類似GPT-4的效果。更重要的是,他們開發(fā)了一種稱為GRPO的PPO強(qiáng)化學(xué)習(xí)算法變體,這種算法更加高效且性能更好。

3、DualPipe:在多GPU環(huán)境下訓(xùn)練AI模型時(shí),需要考慮很多效率相關(guān)的因素。DeepSeek團(tuán)隊(duì)設(shè)計(jì)了一種稱為DualPipe的新方法,這種方法的效率和速度都顯著提高。

傳統(tǒng)意義上的"蒸餾"指的是對(duì)token概率(logits)的訓(xùn)練,而ChatGPT并未開放這類數(shù)據(jù),所以基本不可能去“蒸餾”ChatGPT。

因此,從技術(shù)角度看,DeepSeek的成就不應(yīng)因此受到質(zhì)疑。由于OpenAIo1相關(guān)思維鏈推理過(guò)程從未公開,單純依靠"蒸餾"ChatGPT根本難以實(shí)現(xiàn)這一成果。

而caoz認(rèn)為,DeepSeek的訓(xùn)練中,可能部分利用了一些蒸餾的語(yǔ)料信息,或者做了少許的蒸餾驗(yàn)證,但這個(gè)對(duì)它整個(gè)模型的質(zhì)量和價(jià)值影響應(yīng)該很低。

此外,基于領(lǐng)先模型蒸餾驗(yàn)證優(yōu)化自己的模型,是很多大模型團(tuán)隊(duì)的一個(gè)常規(guī)操作,但畢竟需要聯(lián)網(wǎng)API,能獲得的信息非常有限,不太可能是決定性的影響因素,相對(duì)于海量的互聯(lián)網(wǎng)數(shù)據(jù)信息來(lái)說(shuō),通過(guò)api調(diào)用領(lǐng)先大模型能獲得的語(yǔ)料杯水車薪,合理的猜測(cè)是更多用于對(duì)策略的驗(yàn)證分析,而不是直接用作大規(guī)模訓(xùn)練。

所有大模型都需要從互聯(lián)網(wǎng)獲得語(yǔ)料訓(xùn)練,而領(lǐng)先的大模型也在不斷為互聯(lián)網(wǎng)貢獻(xiàn)語(yǔ)料,從這個(gè)角度來(lái)說(shuō),每個(gè)領(lǐng)先的大模型都擺脫不了被采集,被蒸餾的宿命,但其實(shí)也沒必要把這個(gè)當(dāng)作是決定成敗的關(guān)鍵。

最終大家都是你中有我,我中有你,迭代前進(jìn)。二、DeepSeek的成本僅有550萬(wàn)美元?

550萬(wàn)美元成本,這個(gè)結(jié)論既正確也錯(cuò)誤,因?yàn)闆]有說(shuō)清楚是什么成本。

TanishqMathewAbraham客觀估算了DeepSeek的成本:

首先,我們有必要理解這個(gè)數(shù)字是從何而來(lái)。這個(gè)數(shù)字最早出現(xiàn)在DeepSeek-V3的論文中,該論文比DeepSeek-R1的論文早發(fā)布了一個(gè)月;

DeepSeek-V3是DeepSeek-R1的基礎(chǔ)模型,這意味著DeepSeek-R1實(shí)際上就是在DeepSeek-V3的基礎(chǔ)上進(jìn)行了額外的強(qiáng)化學(xué)習(xí)訓(xùn)練。

因此,從某種意義上說(shuō),這個(gè)成本數(shù)據(jù)本身就不夠準(zhǔn)確,因?yàn)樗鼪]有計(jì)入強(qiáng)化學(xué)習(xí)訓(xùn)練的額外成本。不過(guò)這部分額外成本可能也就幾十萬(wàn)美元。

圖:DeepSeek-V3論文中關(guān)于成本的論述

那么,DeepSeek-V3論文中聲稱的550萬(wàn)美元成本是否準(zhǔn)確呢?

基于GPU成本、數(shù)據(jù)集大小和模型規(guī)模的多項(xiàng)分析都得出了類似的估算結(jié)果。值得注意的是,雖然DeepSeekV3/R1是一個(gè)擁有6710億參數(shù)的模型,但它采用了專家混合系統(tǒng)(mixture-of-experts)架構(gòu),這意味著在任何函數(shù)調(diào)用或前向傳播時(shí)只會(huì)使用約370億參數(shù),這個(gè)數(shù)值才是訓(xùn)練成本計(jì)算的基礎(chǔ)。

需要注意的是,DeepSeek報(bào)告的是基于當(dāng)前市場(chǎng)價(jià)格估算的成本。我們并不知道他們的2048個(gè)H800GPU集群(注意:不是H100,這是一個(gè)常見的誤解)實(shí)際花費(fèi)了多少。通常情況下,整批購(gòu)買GPU集群會(huì)比零散購(gòu)買便宜,所以實(shí)際成本可能更低。

但關(guān)鍵在于,這只是最終訓(xùn)練運(yùn)行的成本。在達(dá)到最終訓(xùn)練之前,還有許多小規(guī)模的實(shí)驗(yàn)和消融研究,這些都會(huì)產(chǎn)生相當(dāng)可觀的成本,而這部分成本并未在此報(bào)告中體現(xiàn)。

此外,還有其他諸多成本,比如研究人員的薪資。據(jù)SemiAnalysis報(bào)道,DeepSeek的研究人員薪資據(jù)傳高達(dá)100萬(wàn)美元。這與OpenAI或Anthropic等AGI前沿實(shí)驗(yàn)室的高端薪資水平相當(dāng)。

有人因?yàn)檫@些額外成本的存在,而否定了DeepSeek的低成本和其運(yùn)營(yíng)效率。這種說(shuō)法極不公平。因?yàn)槠渌麬I公司在人員上也會(huì)花費(fèi)大量的薪資,這通常都沒有被計(jì)算到模型的成本中去!

Semianalysis(一家專注半導(dǎo)體和人工智能的獨(dú)立研究與分析公司)也給出了DeepSeek的AITCO(人工智能領(lǐng)域中的總成本)分析,這張表總結(jié)了DeepSeekAI在使用四種不同型號(hào)GPU(A100、H20、H800和H100)時(shí)的總成本情況,包括買設(shè)備、建服務(wù)器和運(yùn)營(yíng)的費(fèi)用。按照四年周期來(lái)算,這60,000塊GPU的總花費(fèi)是25.73億美元,其中主要是買服務(wù)器的費(fèi)用(16.29億美元)和運(yùn)營(yíng)的費(fèi)用(9.44億美元)。

當(dāng)然,外界沒有人準(zhǔn)確知道DeepSeek究竟擁有多少卡以及各個(gè)型號(hào)的占比究竟有多少,所有的一切都只是估算。

總結(jié)來(lái)說(shuō),如果把所有的設(shè)備、服務(wù)器、運(yùn)營(yíng)等成本全部算下來(lái),成本肯定遠(yuǎn)超550萬(wàn)美元,但是,550萬(wàn)美元的凈算力成本,已經(jīng)十分高效。三、巨額資本支出投資算力 只是巨大的浪費(fèi)?

這是一個(gè)廣為流傳但相當(dāng)片面的觀點(diǎn)。確實(shí),DeepSeek在訓(xùn)練效率上展現(xiàn)出了優(yōu)勢(shì),也暴露出一些頭部的AI公司在計(jì)算資源使用上可能存在效率問(wèn)題。甚至英偉達(dá)短期的暴跌也可能也與這個(gè)誤讀廣為流傳有關(guān)。

但這并不意味著擁有更多計(jì)算資源是一件壞事。從ScalingLaws(擴(kuò)展定律)的角度來(lái)看,更多的計(jì)算能力始終意味著更好的性能。自2017年Transformer架構(gòu)問(wèn)世以來(lái),這一趨勢(shì)一直延續(xù),而DeepSeek的模型,也是基于Transformer架構(gòu)的。

AI發(fā)展的重點(diǎn)雖然在不斷演變——從最初的模型規(guī)模,到數(shù)據(jù)集大小,再到現(xiàn)在的推理計(jì)算和合成數(shù)據(jù),但"更多計(jì)算等于更好性能"的核心規(guī)律并未改變。

雖然DeepSeek找到了一個(gè)更高效的路徑,規(guī)模定律依然有效,但是,更多的計(jì)算資源,仍然能獲得更好的效果。四、DeepSeek是否采用了PTX 繞過(guò)了對(duì)NVIDIACUDA的依賴?

DeepSeek的論文中提到了DeepSeek采用了PTX(ParallelThreadExecution)編程,通過(guò)這樣的一個(gè)定制的PTX優(yōu)化,使DeepSeek的系統(tǒng)和模型可以更好釋放底層硬件的性能。

論文的原文如下:

“weemploycustomizedPTX(ParallelThreadExecution)instructionsandauto-tunethecommunicationchunksize,whichsignificantlyreducestheuseoftheL2cacheandtheinterferencetootherSMs!薄拔覀儾捎枚ㄖ频腜TX(并行線程執(zhí)行)指令并自動(dòng)調(diào)整通信塊大小,這大大減少了L2緩存的使用和對(duì)其他SM的干擾!

這段內(nèi)容,網(wǎng)絡(luò)上流傳著兩個(gè)解讀,一種聲音認(rèn)為,這是為了“繞開CUDA壟斷”;另外一種聲音是,因?yàn)镈eepSeek無(wú)法獲得最高端的芯片,為了解決H800GPU互聯(lián)帶寬受限的問(wèn)題,不得不下沉到更低一層,來(lái)提升跨芯片通信能力。

上海交通大學(xué)副教授戴國(guó)浩認(rèn)為,這兩種說(shuō)法都不太準(zhǔn)確。首先,PTX(并行線程執(zhí)行)指令實(shí)際上是位于CUDA驅(qū)動(dòng)層內(nèi)部的一個(gè)組件,它仍然依賴于CUDA生態(tài)系統(tǒng)。所以,用PTX繞過(guò)CUDA的壟斷這種說(shuō)法是錯(cuò)誤的。

戴國(guó)浩教授用一張PPT清晰地解釋了PTX和CUDA的關(guān)系:

PPT系上海交通大學(xué)副教授戴國(guó)浩制作

CUDA是一個(gè)相對(duì)更上層的接口,提供了面向用戶的一系列編程接口。而PTX一般被隱藏在了CUDA的驅(qū)動(dòng)中,所以幾乎所有的深度學(xué)習(xí)或大模型算法工程師是不會(huì)接觸到這一層。

那為什么這一層會(huì)很重要呢?原因是在于可以看到從這個(gè)身位上,PTX是直接和底層的硬件去發(fā)生交互的,能夠?qū)崿F(xiàn)對(duì)底層硬件更好的編程和調(diào)用。

用通俗的話來(lái)講,DeepSeek這種優(yōu)化方案并不是在芯片受限的現(xiàn)實(shí)條件下的不得已為之,而是主動(dòng)做的優(yōu)化,不管芯片用的是H800還是H100,這種方法都能夠提高通信互聯(lián)效率。五、DeepSeek會(huì)被國(guó)外禁用嗎?

DeepSeek爆火之后,英偉達(dá)、微軟、英特爾、AMD、AWS五大云巨頭都上架或集成了DeepSeek,國(guó)內(nèi)來(lái)看,華為、騰訊、百度、阿里、火山引擎也都支持部署了DeepSeek。

但是,網(wǎng)絡(luò)上有一些過(guò)度情緒化的言論,一方面是,國(guó)外云巨頭上架了DeepSeek,“老外被打服了”。

其實(shí),這些公司對(duì)于DeepSeek的部署,更多是因?yàn)樯虡I(yè)的考量。作為云廠商,盡可能多地支持部署最受歡迎、及能力最強(qiáng)的模型,可以為客戶提供更好的服務(wù),同時(shí),也能蹭一波與DeepSeek相關(guān)的流量,或許也會(huì)帶來(lái)一部分的新用戶轉(zhuǎn)化。

在DeepSeek大熱的時(shí)候集中部署是真,但是對(duì)DeepSeek情有獨(dú)鐘或者是“被打服”等說(shuō)法卻過(guò)分夸大了。

更有甚者,編造出了DeepSeek遭受攻擊之后,中國(guó)科技圈組成復(fù)仇者聯(lián)盟,共同馳援DeepSeek的說(shuō)法。

另外一方面,還有聲音說(shuō),因?yàn)榈鼐壵蔚痊F(xiàn)實(shí)原因,很快國(guó)外就會(huì)陸續(xù)禁止DeepSeek使用。

對(duì)此,caoz給出了比較清晰的解讀:其實(shí)我們所說(shuō)的DeepSeek,實(shí)際上包括了兩個(gè)產(chǎn)品,一個(gè)是DeepSeek這個(gè)風(fēng)靡世界的App,另一個(gè)是github上的開源代碼庫(kù)。前者可以認(rèn)為是后者的Demo,一個(gè)完整的能力展示。而后者,也許會(huì)成長(zhǎng)為一個(gè)蓬勃的開源生態(tài)。

被限制使用的,是DeepSeek的App,而巨頭接入和提供的,是DeepSeek開源軟件的部署。這完全是兩件事。

DeepSeek以"中國(guó)大模型"的姿態(tài)闖入全球AI競(jìng)技場(chǎng),且采用了最大氣的開源協(xié)議——MITLicense,甚至允許商用。目前對(duì)它的討論已經(jīng)遠(yuǎn)遠(yuǎn)超越了技術(shù)創(chuàng)新的范疇,但技術(shù)的進(jìn)步從來(lái)不是非黑即白的對(duì)錯(cuò)之爭(zhēng)。與其陷入過(guò)度吹捧或全盤否定,不如讓時(shí)間和市場(chǎng)檢驗(yàn)其真實(shí)價(jià)值。畢竟,在AI這場(chǎng)馬拉松中,真正的競(jìng)爭(zhēng)才剛剛開始。

參考資料:

《關(guān)于deepseek的一些普遍誤讀》作者:caoz

https://mp.weixin.qq.com/s/Uc4mo5U9CxVuZ0AaaNNi5g

《DeepSeek最強(qiáng)專業(yè)拆解來(lái)了,清交復(fù)教授超硬核解讀》作者:ZeR0

https://mp.weixin.qq.com/s/LsMOIgQinPZBnsga0imcvA

DebunkingDeepSeekDelusions 作者:StabilityAI前研究主管TanishqMathewAbraham

https://www.tanishq.ai/blog/posts/deepseek-delusions.html

Copyright © 2021.Company 元宇宙YITB.COM All rights reserved.元宇宙YITB.COM

欧美日韩中文在线字幕视频| 亚洲欧美日本A∨在线观看| 国产Gv在线观看视频| 日本乱伦一二三区| 久久最新热视频精品97| 五月花国产一区二区| 97你懂的| 手机在线不卡二区中文字幕| 日韩不卡一区二区| 人妻天天操很很操| 欧美视频一区二区三| 一区二区三匹久久网站| 国产精品一级啪啪啪| 久久精品专区无码| 伊人久久精品欧洲综合网| 亚洲色大情网站www永久网站| 思库拉离子水多少钱一瓶| 在线观看麻豆精品国产不卡| 久久伊人国产精品| 精品久久国产蜜臀色欲69| 99精品国产丝袜在线拍国语| 精品欧美视频久久| 六月婷婷色色色| 丰满少妇奶水一区二区三区| 日韩一区二区精品久久高清| 精品熟女一区二区三区| 欧美日韩一级在线视频观看| 亚洲2023久久高清| 人妻色网| 无码人妻碰碰97| 天堂在线中文| 老司机精品视频亚洲| 汝南县| www.xxx国产| 亚洲AV日韩在线播放| 精品综合久久国语中文字幕| 黄色日本韩国免费| 国产精品久在线观看| 超碰免费91| 亚洲精品宾馆在线精品酒店| 色婷婷五月视频|