Neeva:構(gòu)建自有搜索索引,首批集成 AI 功能Neeva 的計(jì)劃來自一個(gè)簡單的想法:谷歌的商業(yè)模式已經(jīng)在拖累搜索引擎的進(jìn)步。Ramaswamy 認(rèn)為,從長遠(yuǎn)來看,這種以廣告為基礎(chǔ)的模式必然導(dǎo)致搜索結(jié)果劣化。要想打造更好的搜索引擎,首先需要改變激勵措施。這種改變意味著不再以展示廣告為訴求,而是始終把用戶體驗(yàn)放在第一位。這種新模式不需要讓用戶輸入查詢,也不需要幫廣告商收集用戶數(shù)據(jù)。其目標(biāo)就是幫助人們找到自己想要的頁面,并避開途中的一切障礙。David Pierce 在一篇分析文章中指出:“從零開始構(gòu)建搜索引擎既困難又昂貴,因此很多人對此根本不感興趣。他們選擇以 10 到 25 美元的價(jià)格購買 Bing 提供的 1000 條數(shù)據(jù)搜索許可,再以此為基礎(chǔ)添加自己的功能和界面?!倍?Neeva 對于徹底改革搜索技術(shù)有很多自己的想法,因此最終決定要控制底層數(shù)據(jù)。
Raghunathan 表示,“我們想要加快搜索速度、充實(shí)預(yù)覽內(nèi)容、提供首選網(wǎng)站、開放個(gè)人搜索選項(xiàng),但這一切都遇到了困難?!盉ing API 提供的鏈接并不支持這些額外功能,所以 Neeva 的思路就成了空想。如果真想打造一套更好的搜索引擎,那 Neeva 就必須得親自動手、從零起步。經(jīng)過兩年的構(gòu)建、訓(xùn)練、完善、再訓(xùn)練和再完善,Neeva 搜索引擎終于建立起完全自主的技術(shù)基礎(chǔ)。構(gòu)建自有搜索索引的一大優(yōu)勢就是,能給大語言模型收集到一組非常實(shí)用的訓(xùn)練數(shù)據(jù)。Neeva 還是首批推出 AI 搜索助手(名為 NeevaAI)的公司之一,它能總結(jié)搜索結(jié)果,有時(shí)甚至直接在頁面頂端回答用戶的問題。Neeva 團(tuán)隊(duì)還建立起了帶有更大圖像和比較信息的購物頁面,這里優(yōu)先參考了 Reddit 和 Quora 等平臺的結(jié)果。體育搜索也變成了漂亮的全屏記分牌。之所以這樣做,就是希望大家在搜索“布拉德·皮特 IMDb”或“WhatsApp Web 版”時(shí),Neeva 的自動補(bǔ)全功能會直接將用戶帶入網(wǎng)站,壓根不需要中間的結(jié)果頁面。
Neeva 干凈、簡單,早期用戶紛紛表示這種不騙人看廣告的搜索引擎才是好引擎。但打造一款好產(chǎn)品和讓用戶喜歡上它完全是兩碼事。畢竟 Neeva 的使用體驗(yàn)太不同了,用戶得放棄自己上網(wǎng)時(shí)最簡單、也最根深蒂固的習(xí)慣,才能適應(yīng)這種全新設(shè)計(jì)。科技行業(yè)一直有個(gè)原則,即人們不會愿意改變自己的使用習(xí)慣。Ramaswamy 在采訪中坦言,“我們面臨的最大障礙之一,確實(shí)就是扭轉(zhuǎn)用戶的固有習(xí)慣。人們忘記了谷歌的成功不僅僅是開發(fā)出了更好的產(chǎn)品。為了實(shí)現(xiàn)目標(biāo),我們必須做出一系列精準(zhǔn)的分發(fā)決策?!睋?jù)報(bào)道,谷歌每年向蘋果支付高達(dá) 150 億美元,為的就是能在各類蘋果設(shè)備的 Safari 瀏覽器中成為默認(rèn)搜索引擎。谷歌同時(shí)也向 Mozilla 支付費(fèi)用,借此成為 Firefox 瀏覽器中的首選搜索引擎。而這筆費(fèi)用高達(dá)每年 4.5 億美元。谷歌還跟其他設(shè)備制造商和瀏覽器開發(fā)商有合作,甚至跟電信運(yùn)營商也有類似的交易。據(jù)《華爾街日報(bào)》報(bào)道,三星曾在 2023 年短暫考慮結(jié)束與谷歌的交易,但由于各種原因而最終放棄,其中包括“可能對與谷歌間的廣泛業(yè)務(wù)關(guān)系產(chǎn)生影響”。谷歌的真正優(yōu)勢在于旗下的其它產(chǎn)品。Android 是目前全球最受歡迎的移動操作系統(tǒng),市場份額約占 78%。Chrome 則是最受歡迎的網(wǎng)絡(luò)瀏覽器,市場占比約 62%。
在這兩大平臺上,谷歌自然也成為不可撼動的默認(rèn)搜索引擎。做搜索引擎,既復(fù)雜,又簡單搜索引擎是種神奇的事物——既復(fù)雜無比,又簡單純粹。實(shí)際上,搜索引擎所做的就是編譯網(wǎng)頁數(shù)據(jù)庫(即「搜索索引」),之后在每次收到查詢時(shí)瀏覽該數(shù)據(jù)庫,從中提取并交付質(zhì)量最高、相關(guān)度最強(qiáng)的一組頁面。但這過程中的每一步,都涉及著巨大的復(fù)雜性,需要做出一連串權(quán)衡。而權(quán)衡的核心有二:時(shí)間與金錢。即使創(chuàng)業(yè)者能建立一套不斷更新的數(shù)據(jù)庫,囊括互聯(lián)網(wǎng)上的數(shù)千億個(gè)頁面,但光是它產(chǎn)生的存儲和帶寬成本就足以讓地球上任何一家巨頭企業(yè)破產(chǎn)。這還不包括每天對數(shù)據(jù)庫執(zhí)行無數(shù)次檢索的成本。另外,搜索響應(yīng)中的每一毫秒都非常重要——谷歌會在結(jié)果上方顯示每次查詢耗費(fèi)的時(shí)間。
總而言之,創(chuàng)業(yè)者恐怕沒有足夠的時(shí)間逐個(gè)查看整個(gè)數(shù)據(jù)庫。此外,搜索引擎的構(gòu)建還要從一個(gè)基本哲學(xué)問題開始:什么叫高質(zhì)量網(wǎng)頁?創(chuàng)業(yè)者必須決定哪些分歧是合理的,而哪些信息屬于純粹的胡說八道,必須搞清廣告占比到多少才不會過度。那些由 AI 編寫且充斥著 SEO 垃圾的網(wǎng)站當(dāng)然不好,但個(gè)人認(rèn)真撰寫、且同樣充斥 SEO 垃圾的美食博客則還不錯。一旦完成了上述討論并設(shè)定出明確的邊界,那搜索引擎中就基本確定了需要保留的幾千個(gè)域名。其中包括 CNN 和 Breitbart 等新聞網(wǎng)站,Reddit、Stack Overflow 和 Twitter 的熱門討論板,維基百科和 Craigslist 等工具服務(wù),YouTube 和 Amazon 等服務(wù)平臺,還有各類最頂級的食譜 / 體育 / 購物網(wǎng)絡(luò)。有時(shí)候,創(chuàng)業(yè)者可以跟這些網(wǎng)站洽談合作,以結(jié)構(gòu)化方式直接獲取數(shù)據(jù),不再單獨(dú)瀏覽各個(gè)頁面。值得一提的是很多大平臺都有專門的團(tuán)隊(duì),有時(shí)甚至愿意免費(fèi)配合。之后就該放出爬蟲了。這些機(jī)器人能爬取給定網(wǎng)頁上的內(nèi)容,之后查找并跟蹤頁面上的各個(gè)鏈接、索引全部頁面內(nèi)容,就這樣完成鏈接、索引的查找與跟蹤循環(huán)。而每次爬蟲訪問一個(gè)頁面時(shí),都會根據(jù)之前設(shè)定的高質(zhì)量網(wǎng)頁標(biāo)準(zhǔn)對其做評估。被認(rèn)定為高質(zhì)量的內(nèi)容將被下載至某臺服務(wù)器上,于是搜索索引開始迅速膨脹。當(dāng)然,爬蟲也不是在哪里都受歡迎。爬蟲每次打開網(wǎng)頁,都會給內(nèi)容提供商帶來帶寬成本。現(xiàn)在想象一下,一套搜索引擎每秒都會對網(wǎng)站上的各個(gè)頁面進(jìn)行加載和保存,這樣的更新成本將很快超出提供商的承受能力。
因此,大多數(shù)網(wǎng)站都設(shè)置一個(gè)名為 robots.txt 的文件,用于定義哪些爬蟲可以訪問其內(nèi)容、哪些爬蟲不行,以及允許爬蟲爬取哪些 URL。從技術(shù)上講,搜索引擎完全可以不理會 robots.txt 上的規(guī)則,但這是 Web 結(jié)構(gòu)和文化中的一部分。幾乎所有網(wǎng)站都愿意接納谷歌和 Bing,因?yàn)樗鼈儙淼目砂l(fā)現(xiàn)性已經(jīng)超過了帶寬成本。也有很多人會阻止特定的服務(wù)商,例如不希望亞馬遜爬取并分析他們的購物網(wǎng)站。其他人則制定一攬子規(guī)則:除了谷歌和 Bing 外,其余爬蟲概不接待。很快,爬蟲就會帶回相當(dāng)廣泛的互聯(lián)網(wǎng)快照。接下來的工作就是針對搜索引擎可能收到的每條查詢,按順序?qū)θ宽撁孀雠琶?。大家可以按主題對頁面做排序,這樣就能劃分成更小、更易于搜索的索引,而不是包羅萬象的龐然大物。簡單來講,就是本地結(jié)果與本地結(jié)果匹配,購物與購物匹配,新聞與新聞匹配。我們需要使用大量機(jī)器學(xué)習(xí)技術(shù)來收集特定頁面的主題和內(nèi)容,同時(shí)也離不開人工協(xié)助。此外,還會引入評分團(tuán)隊(duì),向他們展示查詢和結(jié)果,并要求他們從 0 到 10 為結(jié)果的真實(shí)性打分。有時(shí)候問題很明顯,如果有人搜索「Facebook」,但響應(yīng)結(jié)果的第一條居然不是 facebook.com,那肯定不能接受。但大多數(shù)情況下,我們會合并來自大量輸入的評分,并將其饋送到索引和主題模型當(dāng)中,之后不斷重復(fù)這個(gè)過程。到這里,問題才剛剛解決了一半。我們還得提高所謂“查詢理解”能力,也就是意識到搜索“巨石強(qiáng)森”和搜索“道恩·約翰遜”的人其實(shí)是想找同樣的信息。最終,我們將積累起一個(gè)龐大的同義詞和相似性庫,并據(jù)此重寫查詢以降低搜索難度。而且如谷歌所說,每天他們的引擎中都有 15% 的全新搜索,所以這場理解人們真實(shí)需求和擴(kuò)充新知識的賽跑將永遠(yuǎn)沒有終點(diǎn)。
一段時(shí)間之后,搜索引擎正式上線了,開始獲得更多人的關(guān)注、點(diǎn)擊和偏好。這里還有一項(xiàng)黃金標(biāo)準(zhǔn):如果用戶在點(diǎn)擊鏈接后,不再立即搜索和點(diǎn)擊其他鏈接,就代表當(dāng)前結(jié)果的質(zhì)量令人滿意。而另一方面,用戶們的點(diǎn)擊量越大,就越能了解他們真正想要的是什么。此外,運(yùn)行搜索引擎還需要不斷在速度、成本和質(zhì)量三者中取得平衡。比如,當(dāng)有人輸入“YouTube”并按下回車時(shí),如果搜索整個(gè)數(shù)據(jù)庫會耗費(fèi)太長時(shí)間、造成不必要的帶寬和存儲成本;如果保留一個(gè)容納整個(gè)互聯(lián)網(wǎng)的數(shù)據(jù)庫,不但存儲成本高昂,搜索速度也會太過緩慢;如果設(shè)定只顯示網(wǎng)絡(luò)上最受歡迎的 100 個(gè)網(wǎng)站,就能保證速度和成本,但會存在內(nèi)容不全面、質(zhì)量不可靠的情況。同時(shí),各個(gè)網(wǎng)站本身也在不斷變化,搜索引擎的爬蟲和排名系統(tǒng)也要持續(xù)跟進(jìn)。