2010 年,騰訊這家千億巨頭還埋頭在自家地里辛勤耕耘,QQ 空間等一眾應(yīng)用的爆火,讓騰訊的服務(wù)器忙得不可開交,為了承接住如此高并發(fā)的流量洪潮,騰訊在短短一個月內(nèi)額外購買了上千臺服務(wù)器。但流量不會永遠(yuǎn)停在峰值上,當(dāng)流量回落后,閑置的服務(wù)器就造成了資源的浪費(fèi)。
找上門的生意沒有不做的道理,就這樣,2011 年左右騰訊開始籌備組建一支十幾人的云團(tuán)隊(duì),將內(nèi)部技術(shù)能力以產(chǎn)品和服務(wù)的形式對外銷售,當(dāng)時他們做了一個產(chǎn)品,叫 Open Cloud(開放云),這就是后來騰訊云的雛形。
有了一眾明星級應(yīng)用等加持,騰訊云團(tuán)隊(duì)的技術(shù)實(shí)力很快得到了市場的認(rèn)可,同年年底,騰訊就已經(jīng)積累了近 3000 家客戶。
云計(jì)算是一個人力密集型的賽道,需要投入大量人力才能把客戶維護(hù)好。就這樣,為了更好地支持騰訊云業(yè)務(wù),騰訊深圳大本營分別在深圳、北京和成都扎了根,隨后擴(kuò)展到了多個城市。
隨著 Open Cloud 打磨了云技術(shù)的底座,騰訊成立了獨(dú)立的云計(jì)算品牌騰訊云,正式開啟了公有云的萬里征程。
擔(dān)任騰訊云數(shù)據(jù)庫副總經(jīng)理的羅云,就是騰訊云業(yè)務(wù)團(tuán)隊(duì)的創(chuàng)始成員之一。
據(jù)羅云介紹,從 2011 年開始做云業(yè)務(wù)至今,整個團(tuán)隊(duì)經(jīng)歷了多次方向上的調(diào)整,直到 2017 年看到國產(chǎn)數(shù)據(jù)庫這個大趨勢后,成都團(tuán)隊(duì)才定下調(diào)來主攻數(shù)據(jù)庫賽道。
與很多互聯(lián)網(wǎng)公司不同的是,騰訊初始的業(yè)務(wù)發(fā)展并未對數(shù)據(jù)庫有過強(qiáng)依賴,騰訊內(nèi)部沒有去 IOE 的過程。
一開始,騰訊云數(shù)據(jù)庫建設(shè)主要引入了當(dāng)時業(yè)界較為主流的開源數(shù)據(jù)庫,如 MySQL、Redis、MariaDB、PostgreSQL 等。隨后針對云上客戶定制需求,騰訊云在數(shù)據(jù)庫中衍生研發(fā)了如數(shù)據(jù)庫并行復(fù)制、審計(jì)日志、在線加字段等核心功能,并計(jì)劃逐步將以上功能回饋給 MariaDB 和 MySQL 社區(qū)。
隨著騰訊云數(shù)據(jù)庫積累的客戶越來越多,客戶的需求越來越定制化且應(yīng)用場景更加復(fù)雜,在業(yè)務(wù)倒逼之下,從 2012 年開始,騰訊云研發(fā)了適配內(nèi)部業(yè)務(wù)自研數(shù)據(jù)庫 TDSQL,此后又推出多款自研數(shù)據(jù)庫 TDSQL-C、TBase 等產(chǎn)品。
在習(xí)慣了 Oracle、MySQL 等國外十分成熟的數(shù)據(jù)庫后,客戶對新興數(shù)據(jù)庫產(chǎn)品的要求很高,既要求高并發(fā)、高可用、低延遲等高性能,還要保證數(shù)據(jù)持久化,因此對團(tuán)隊(duì)的技術(shù)水平要求極高。
羅云舉例稱,“在數(shù)據(jù)庫每次熱升級時,要做到讓用戶無感是非常困難的。在斷開又重連的過程中,我們的團(tuán)隊(duì)能做到秒級別的抖動。因?yàn)槲覀冊跀?shù)據(jù)庫的內(nèi)核上做了很多工作,比如做了兩層架構(gòu),軟件的第一層叫 proxy(接入層),下面有 cache(存儲層),我們通過一些邏輯使這兩層疊加后就可以實(shí)現(xiàn)做業(yè)務(wù)替換時讓客戶毫無感知?!?/div>
為了應(yīng)對高性能和數(shù)據(jù)持久化的要求,騰訊內(nèi)部還 100% 自研了 KeeWiDB 數(shù)據(jù)庫,這是一款完全兼容 Redis 協(xié)議的新一代分布式 KV 存儲數(shù)據(jù)庫,實(shí)現(xiàn)了數(shù)據(jù)的冷熱分級,滿足業(yè)務(wù)高性能、持久化、低成本、大規(guī)模的四大訴求,這也為后面騰訊自研向量數(shù)據(jù)庫打下了堅(jiān)實(shí)的技術(shù)基礎(chǔ)。
此外,KeeWiDB的技術(shù)背后,騰訊云與中科大聯(lián)合撰寫的論文《PLIN: A Persistent Learned Index for Non-Volatile Memory with High Performance and Instant Recovery》已被數(shù)據(jù)庫國際頂會 VLDB 收錄。
兩個多月做完一款自研數(shù)據(jù)庫在大模型浪潮爆發(fā)后,騰訊云在一眾大廠中搶先發(fā)布了自己的向量數(shù)據(jù)庫產(chǎn)品。據(jù)悉,整個產(chǎn)品從立項(xiàng)到最終完成產(chǎn)品化僅用了不到 3 個月的時間。
之所以能如此快地推出這款產(chǎn)品,羅云表示,這主要得益于兩方面:一個是云團(tuán)隊(duì)內(nèi)部多年的技術(shù)積累;另一方面是這個團(tuán)隊(duì)中每個人都是能打“硬仗”的好兵。
去年年初,隨著 ChatGPT 的爆火,國內(nèi)“百模大戰(zhàn)”趨勢日漸明顯。騰訊云也在思考從哪個方向找到突破口切入到大模型“軍備競賽”中。隨后到了 3 月份,ChatGPT 發(fā)布了一個叫“Plugin”的插件功能,Plugin 的標(biāo)準(zhǔn)案例中提到向量數(shù)據(jù)庫是大模型產(chǎn)品中必不可少的一個組件。因?yàn)楫?dāng)前的大模型都是預(yù)訓(xùn)練大模型,它能夠?qū)W到的數(shù)據(jù)只是公開數(shù)據(jù),更多的企業(yè)私有數(shù)據(jù)和實(shí)時數(shù)據(jù)大模型是學(xué)不了的。
既無法學(xué)習(xí)實(shí)時數(shù)據(jù),又學(xué)不到企業(yè)私有數(shù)據(jù),這是預(yù)訓(xùn)練大模型在時間和空間上的兩大限制?;谶@個邏輯,大模型一定會需要一個外部的“海馬體”,也就是存儲組件來存儲這些知識。
另一方面,市場上很多做大模型的企業(yè)也在向騰訊云團(tuán)隊(duì)尋求一款企業(yè)級的向量數(shù)據(jù)庫產(chǎn)品。
就這樣,在加深了對大模型的探索和對行業(yè)有了更清晰的認(rèn)知后,騰訊云團(tuán)隊(duì)認(rèn)為向量數(shù)據(jù)庫是一個必須要做并且要趕緊做出來的產(chǎn)品。
對齊了需求后,就來到了執(zhí)行層面。擺在騰訊云面前的第一個選擇就是到底要做什么類型的向量數(shù)據(jù)庫類型,究竟是做插件式還是自研?
出于市場需求側(cè)的壓力,騰訊云想快速推出一款產(chǎn)品,所以剛開始也考慮了用 Redis Search 插件式的方案來做產(chǎn)品。但經(jīng)過調(diào)研發(fā)現(xiàn),這種全內(nèi)存的方案成本太高,這也騰訊云堅(jiān)定了要做自研的決心。
據(jù)騰訊云向量數(shù)據(jù)庫產(chǎn)品負(fù)責(zé)人鄒鵬介紹,騰訊云向量數(shù)據(jù)庫真正立項(xiàng)時間是在 5 月中下旬,隨后技術(shù)團(tuán)隊(duì)就著手調(diào)研研發(fā)方案了。既然時間如此緊迫,那不如從騰訊的內(nèi)部項(xiàng)目中考察是否有能夠匹配得上的產(chǎn)品,這樣是最高效的解決方案。
鄒鵬認(rèn)為,做一款云數(shù)據(jù)庫最核心的兩大要素就是管控和內(nèi)核:管控是指要給數(shù)據(jù)庫做一些功能,把它產(chǎn)品化,就比如數(shù)據(jù)庫的控制臺上一系列可操作的功能;內(nèi)核就是數(shù)據(jù)庫數(shù)據(jù)層面的東西。
在管控層面,通過多年的技術(shù)積累,騰訊云沉淀出了一個比價成熟的云原生管控平臺——云巢,這是一款 PaaS on IaaS 方案,自 2019 年上線后一直穩(wěn)定地為所有騰訊云數(shù)據(jù)庫產(chǎn)品服務(wù)。
在內(nèi)核層面的選擇上就要比管控層復(fù)雜一些。因?yàn)轵v訊集團(tuán)內(nèi)部有多款數(shù)據(jù)庫內(nèi)核可供選擇,究竟該選擇哪一款就是個問題。
經(jīng)過調(diào)研后,騰訊云數(shù)據(jù)庫團(tuán)隊(duì)認(rèn)為,使用規(guī)模和體量最大的向量引擎 Olama 是向量數(shù)據(jù)庫內(nèi)核的最佳選擇。
QQ、QQ 空間、騰訊視頻、騰訊新聞這些業(yè)務(wù)場景中都會涉及推薦、搜索等向量技術(shù),也從一定程度上驗(yàn)證了 Olama 的技術(shù)實(shí)力。此外,Olama 采用了比較前沿的分布式的、Raft 架構(gòu)設(shè)計(jì),這種架構(gòu)設(shè)計(jì)邏輯也更偏向于數(shù)據(jù)庫的架構(gòu)邏輯,且易于維護(hù)。更重要的是,Raft 架構(gòu)在彈性上也設(shè)計(jì)得非常靈活,它甚至能夠做到表級別的資源擴(kuò)展。
鄒鵬稱,在和 PCG 團(tuán)隊(duì)溝通后,了解到他們也有非常強(qiáng)烈的上云需求,兩個團(tuán)隊(duì)一拍即合,管控層和內(nèi)核層全部塵埃落定,這個項(xiàng)目基本上已經(jīng)完成了大半。
Olama 和云巢都是騰訊集團(tuán)內(nèi)部非常成熟的產(chǎn)品,如何高效強(qiáng)執(zhí)行的將兩者融合在一起的過程中還是給團(tuán)隊(duì)帶來了一些挑戰(zhàn)。
整個團(tuán)隊(duì)花費(fèi)時間和精力比較多的工作在接口和協(xié)議的處理上。由于 Olama 和云巢此前都是騰訊內(nèi)部自用的產(chǎn)品,它們接口的一些功能設(shè)計(jì)無法友好地對外服務(wù),因此需要進(jìn)行重新設(shè)計(jì)接口,這是對內(nèi)核改造最大的一部分工作,也會占用一些新的研發(fā)資源并加大在這方面的投入。
經(jīng)過了兩個多月的摸爬滾打后,騰訊云向量數(shù)據(jù)庫現(xiàn)已在官網(wǎng)上線。
要想做出一款好產(chǎn)品,僅有技術(shù)上的積累是不夠的,背后團(tuán)隊(duì)的技術(shù)實(shí)力也同樣重要。
羅云稱,“數(shù)據(jù)庫是個比較卷的賽道,沒有最卷,只有更卷。在這么短的時間內(nèi)推出上線一款全新的自研數(shù)據(jù)庫,對團(tuán)隊(duì)成員來說是不小的挑戰(zhàn)。但好在我們的工程師都是很‘能打’的。”
向量數(shù)據(jù)庫是風(fēng)口,更是剛需
“專業(yè)的向量數(shù)據(jù)庫需要有長時間的積累和投入才能做得出來,但相應(yīng)的它的天花板也更高?!?/div>
AIGC 技術(shù)迎來大爆發(fā)后,國內(nèi)外科技公司紛紛推出自家大模型產(chǎn)品,這一波浪潮把向量數(shù)據(jù)庫這一原本沒那么火爆的賽道推到了聚光燈下。
向量數(shù)據(jù)庫本質(zhì)有三種形態(tài):第一種是純單機(jī)向量數(shù)據(jù)庫,它不是分布式的;第二種是在傳統(tǒng)數(shù)據(jù)庫上加上一個具備向量檢索能力的插件;第三種是獨(dú)立的、專業(yè)的企業(yè)級向量數(shù)據(jù)庫。
目前國內(nèi)的許多企業(yè)并沒有采用專門的向量數(shù)據(jù)庫,而是在原來傳統(tǒng)數(shù)據(jù)庫上增加了一項(xiàng)向量檢索能力,也就是上述提到的第二種形態(tài)。從表面上看,獨(dú)立的、專業(yè)的向量數(shù)據(jù)庫看起來并不是那么剛需,但事實(shí)的確如此嗎?
這就要從傳統(tǒng)數(shù)據(jù)庫和向量數(shù)據(jù)庫的區(qū)別來看了。傳統(tǒng)數(shù)據(jù)庫和向量數(shù)據(jù)庫的主要區(qū)別在于它們的數(shù)據(jù)存儲方式、數(shù)據(jù)規(guī)模、查詢方式和計(jì)算密集型。
數(shù)據(jù)存儲方式:傳統(tǒng)數(shù)據(jù)庫存儲的是結(jié)構(gòu)化數(shù)據(jù),而向量數(shù)據(jù)庫存儲的是向量數(shù)據(jù),即將非結(jié)構(gòu)化數(shù)據(jù)(如圖片、音頻、文章等)轉(zhuǎn)換為向量方式來存儲。
數(shù)據(jù)規(guī)模:傳統(tǒng)關(guān)系型數(shù)據(jù)庫的管理數(shù)據(jù)規(guī)模通常為千萬級,而向量數(shù)據(jù)庫的需求數(shù)據(jù)規(guī)模則以達(dá)到千億級。
查詢方式:傳統(tǒng)數(shù)據(jù)庫的查詢通常是精確查詢,即查詢結(jié)果要么符合條件要么不符合條件。而向量數(shù)據(jù)庫則使用相似性查找,即查找與查詢條件最相似的結(jié)果,這需要更高的計(jì)算能力。
計(jì)算密集型:傳統(tǒng)數(shù)據(jù)庫的查詢主要是事務(wù)處理,而向量數(shù)據(jù)庫的查詢則是計(jì)算密集型,需要進(jìn)行大量的向量計(jì)算和比較。
總而言之,向量數(shù)據(jù)庫的主要特點(diǎn)是能夠高效地存儲和查詢大規(guī)模的向量數(shù)據(jù)。它通常采用基于向量相似度的查詢方式,即根據(jù)向量之間的相似度來檢索數(shù)據(jù)。這種查詢方式可以用于各種應(yīng)用場景,例如圖像搜索、音樂推薦、文本分類等。維度越高、信息量越大,這些特性都是傳統(tǒng)數(shù)據(jù)庫很難做到的。這種專門用于存儲、索引和查詢嵌入向量的數(shù)據(jù)庫系統(tǒng),可以讓大模型更高效率的存儲和讀取知識庫,并且以更低的成本進(jìn)行 finetune(模型微調(diào)),還將進(jìn)一步在 AI Native 應(yīng)用的演進(jìn)中扮演重要作用。
目前,大語言模型(LLM)往往包含數(shù)十億個參數(shù),嵌入則廣泛作用于這些模型的訓(xùn)練和微調(diào)過程,使其獲得執(zhí)行各種 NLP 任務(wù)的能力。在 MaaS 業(yè)務(wù)的訓(xùn)練、推理等場景,向量數(shù)據(jù)庫都非常重要。
更重要的是,向量數(shù)據(jù)庫可以大幅度拓展大模型的時間邊界和空間邊界。目前的大模型都是預(yù)訓(xùn)練模型,對于訓(xùn)練截止日之后發(fā)生的事情一無所知。向量數(shù)據(jù)庫可以通過存儲最新信息后給大模型訪問來彌補(bǔ)這點(diǎn)不足。
此外,通過向量數(shù)據(jù)的本地存儲,向量數(shù)據(jù)庫能夠協(xié)助解決目前企業(yè)界最擔(dān)憂的大模型泄露隱私的問題。向量數(shù)據(jù)庫還自帶多模態(tài)功能,能夠?qū)崿F(xiàn)用中文搜索英語圖書、用俄文搜索圖片內(nèi)容等操作,向量數(shù)據(jù)庫的近似搜索能力能夠給向量數(shù)據(jù)庫帶來巨大的商業(yè)化潛力。
在羅云看來,現(xiàn)在我們無法完全篤定地說最終向量數(shù)據(jù)庫會停留在哪個形態(tài)上,但他認(rèn)為第三種形體是可以向下兼容前面兩種形態(tài)的,只是這種專業(yè)的向量數(shù)據(jù)庫需要有長時間的積累和投入才能做得出來。第一個形態(tài)它可能邊界就在幾十萬行的下面,第二個形態(tài)它可能做到幾百萬行到億可能就搞不定了,如果要做到億到 10 億的數(shù)據(jù)規(guī)模,就需要專業(yè)的企業(yè)級分布式向量數(shù)據(jù)庫了。
未來發(fā)展趨勢展望雖然去年至今年國內(nèi)外大模型產(chǎn)品和企業(yè)層出不窮,但羅云認(rèn)為,目前大模型還處于技術(shù)發(fā)展的初期階段,相應(yīng)地,與之相關(guān)的技術(shù)也處于較早期。以向量數(shù)據(jù)庫技術(shù)發(fā)展現(xiàn)狀來看,向量數(shù)據(jù)庫的發(fā)展可以分為三個演進(jìn)階段:
第一個階段,是向量數(shù)據(jù)庫概念的定義和規(guī)范階段。也就是一款數(shù)據(jù)庫它要具備向量數(shù)據(jù)庫所有的特征,在向量存儲能力、檢索能力上達(dá)到向量數(shù)據(jù)庫的要求,能夠滿足客戶的基本需求,才可以稱之為向量數(shù)據(jù)庫。
第二個階段,是向量數(shù)據(jù)庫核心成本優(yōu)勢的競爭階段。當(dāng)我們把向量數(shù)據(jù)庫的概念和特征明確后,就要求數(shù)據(jù)庫廠商們“卷起來”了。他們要去真刀真槍地對比誰家的產(chǎn)品成本更低,比如單 QPS 查詢需要客戶付多少錢、它節(jié)省了多少人力和時間成本等。
第三個階段,是向量數(shù)據(jù)庫的易用性打磨階段。這個階段就主要去解決客戶“既要又要”的問題了。客戶已經(jīng)不再只要求成本上的降低,還會更加關(guān)注數(shù)據(jù)庫性能的極致體驗(yàn),這也是向量數(shù)據(jù)庫廠商們要大力投入的方向。
目前來看,客戶的需求還只是停留在需要一款真正的向量數(shù)據(jù)庫上。
相比于傳統(tǒng)數(shù)據(jù)庫,客戶在做向量數(shù)據(jù)庫選型時就容易得多,因?yàn)閼?yīng)用場景單一,不會涉及太多混合場景需求。羅云稱,“在市場側(cè),國內(nèi)客戶在做數(shù)據(jù)庫選型時更傾向于選擇有持久性保障的廠商,客戶們會考慮你的服務(wù)的可延續(xù)性,這個比較重要?!?/div>
在技術(shù)層面,羅云預(yù)判向量數(shù)據(jù)庫未來會朝著與云和云的基礎(chǔ)設(shè)施結(jié)合的發(fā)向發(fā)展,也就是 AI Native 化的向量數(shù)據(jù)庫。他進(jìn)一步解釋道:“在向量里面,決定向量數(shù)據(jù)庫核心性能的指標(biāo)是它的向量檢索算法,而這個算法其實(shí)比較成熟了。所以當(dāng)我們要攻破數(shù)據(jù)庫單 QPS 查詢成本的時候,就會考慮如何將整個云服務(wù)結(jié)合 IaaS、容器的核心競爭力都組合在一起去打磨向量數(shù)據(jù)庫,這也是我認(rèn)為在向量數(shù)據(jù)庫賽道未來云廠商能夠跑出來的第一個點(diǎn)”。
此外,隨著向量數(shù)據(jù)庫和 AI 的結(jié)合更加緊密,客戶向量數(shù)據(jù)庫的易用性會有更高要求,這也是剛才羅云提到的第三個發(fā)展階段,有了 AI 和數(shù)據(jù)庫相關(guān)技術(shù)的積累后,就可以很方便地將這些能力組裝進(jìn)向量數(shù)據(jù)庫里,產(chǎn)生核心競爭力。
免責(zé)聲明:兩個多月完成全自研:大模型之爭,從 GPU 卷到了向量數(shù)據(jù)庫文章轉(zhuǎn)發(fā)自互聯(lián)網(wǎng),版權(quán)歸其所有。
文章內(nèi)容不代表本站立場和任何投資暗示。加密貨幣市場極其波動,風(fēng)險很高,可能不適合所有投資者。在投資加密貨幣之前,請確保自己充分了解市場和投資的風(fēng)險,并考慮自己的財(cái)務(wù)狀況和風(fēng)險承受能力。此外,請遵循您所在國家的法律法規(guī),以及遵守交易所和錢包提供商的規(guī)定。對于任何因使用加密貨幣所造成的投資損失或其他損失,本站不承擔(dān)任何責(zé)任。