奇米超碰,黄色人妖一级大,欧美亚洲人妻综合,大香蕉一区二区二区四区五区

  • 元宇宙:本站分享元宇宙相關(guān)資訊,資訊僅代表作者觀點與平臺立場無關(guān),僅供參考.

OpenAI震撼發(fā)布o1大模型 強化學(xué)習(xí)突破LLM推理極限

  • 2024年9月13日 22:49

來源:機器之心

大語言模型還能向上突破,OpenAI再次證明了自己的實力。

北京時間9月13日午夜,OpenAI正式公開一系列全新AI大模型,旨在專門解決難題。這是一個重大突破,新模型可以實現(xiàn)復(fù)雜推理,一個通用模型解決比此前的科學(xué)、代碼和數(shù)學(xué)模型能做到的更難的問題。

奧特曼表示,雖然o1的表現(xiàn)仍然存在缺陷,不過你在第一次使用它的時候仍然會感到震撼。

其次,o1給大模型規(guī)模擴展vs性能的曲線帶來了一次上翹。它在大模型領(lǐng)域重現(xiàn)了當年AlphaGo強化學(xué)習(xí)的成功——給越多算力,就輸出越多能,一直到超越人類水平。

也就是從方法上,o1大模型首次證明了語言模型可以進行真正的強化學(xué)習(xí)。

開發(fā)出首個AI軟件工程師Devin的CognitionAI表示,過去幾周一直與OpenAI密切合作,使用Devin評估o1的推理能力。結(jié)果發(fā)現(xiàn),與GPT-4o相比,o1系列模型對于處理代碼的智能體系統(tǒng)來說是一個重大進步。

最后在實踐中,o1上線之后,現(xiàn)在ChatGPT可以在回答問題前先仔細思考,而不是立即脫口而出答案。就像人類大腦的系統(tǒng)1和系統(tǒng)2,ChatGPT已經(jīng)從僅使用系統(tǒng)1(快速、自動、直觀、易出錯)進化到了可使用系統(tǒng)2思維(緩慢、深思熟慮、有意識、可靠)。這讓它能夠解決以前無法解決的問題。

從今天ChatGPT的用戶體驗來看,這是向前邁進一小步。在簡單的Prompt下,用戶可能不會注意到太大的差異,但如果問一些棘手的數(shù)學(xué)或者代碼問題,區(qū)別就開始明顯了。更重要的是,未來發(fā)展的道路已經(jīng)開始顯現(xiàn)。

總而言之,今晚OpenAI丟出的這個重磅炸彈,已經(jīng)讓整個AI社區(qū)震撼,紛紛表示tql、睡不著覺,深夜已經(jīng)開始抓緊學(xué)習(xí)。接下來,就讓我們看下OpenAIo1大模型的技術(shù)細節(jié)。OpenAIo1工作原理

在技術(shù)博客《LearningtoReasonwithLLMs》中,OpenAI對o1系列語言模型做了詳細的技術(shù)介紹。

OpenAIo1是經(jīng)過強化學(xué)習(xí)訓(xùn)練來執(zhí)行復(fù)雜推理任務(wù)的新型語言模型。特點就是,o1在回答之前會思考——它可以在響應(yīng)用戶之前產(chǎn)生一個很長的內(nèi)部思維鏈。

也就是該模型在作出反應(yīng)之前,需要像人類一樣,花更多時間思考問題。通過訓(xùn)練,它們學(xué)會完善自己的思維過程,嘗試不同的策略,并認識到自己的錯誤。

在OpenAI的測試中,該系列后續(xù)更新的模型在物理、化學(xué)和生物學(xué)這些具有挑戰(zhàn)性的基準任務(wù)上的表現(xiàn)與博士生相似。OpenAI還發(fā)現(xiàn)它在數(shù)學(xué)和編碼方面表現(xiàn)出色。

在國際數(shù)學(xué)奧林匹克(IMO)資格考試中,GPT-4o僅正確解答了13%的問題,而o1模型正確解答了83%的問題。

模型的編碼能力也在比賽中得到了評估,在Codeforces比賽中排名89%。

OpenAI表示,作為早期模型,它還不具備ChatGPT的許多實用功能,例如瀏覽網(wǎng)頁獲取信息以及上傳文件和圖片。

但對于復(fù)雜的推理任務(wù)來說,這是一個重大進步,代表了人工智能能力的新水平。鑒于此,OpenAI將計數(shù)器重置為1,并將該系列模型命名為OpenAIo1。

重點在于,OpenAI的大規(guī)模強化學(xué)習(xí)算法,教會模型如何在數(shù)據(jù)高度有效的訓(xùn)練過程中利用其思想鏈進行高效思考。換言之,類似于強化學(xué)習(xí)的ScalingLaw。

OpenAI發(fā)現(xiàn),隨著更多的強化學(xué)習(xí)(訓(xùn)練時計算)和更多的思考時間(測試時計算),o1的性能持續(xù)提高。而且擴展這種方法的限制與大模型預(yù)訓(xùn)練的限制有很大不同,OpenAI也還在繼續(xù)研究。

評估

為了突出相對于GPT-4o的推理性能改進,OpenAI在一系列不同的人類考試和機器學(xué)習(xí)基準測試中測試了o1模型。實驗結(jié)果表明,在絕大多數(shù)推理任務(wù)中,o1的表現(xiàn)明顯優(yōu)于GPT-4o。

o1在具有挑戰(zhàn)性的推理基準上比GPT-4o有了很大的改進。

在一個官方演示中,o1-preview解答了一個非常困難的推理問題:當公主的年齡是王子的兩倍時,公主的年齡與王子一樣大,而公主的年齡是他們現(xiàn)在年齡總和的一半。王子和公主的年齡是多少?提供這個問題的所有解。

在2024年AIME考試中,GPT-4o平均只解決了12%(1.8/15)的問題,而o1在每個問題只有一個樣本的情況下平均為74%(11.1/15),在64個樣本之間達成一致的情況下為83%(12.5/15),在使用學(xué)習(xí)的評分函數(shù)對1000個樣本重新排序時為93%(13.9/15)。13.9分可以躋身全美前500名,并且高于美國數(shù)學(xué)奧林匹克競賽分數(shù)線。

OpenAI還在GPQADiamond基準上評估了o1,這是一個困難的智力基準,用于測試化學(xué)、物理和生物學(xué)方面的專業(yè)知識。為了將模型與人類進行比較,OpenAI聘請了擁有博士學(xué)位的專家來回答GPQADiamond基準問題。

實驗結(jié)果表明:o1超越了人類專家的表現(xiàn),成為第一個在該基準測試中做到這一點的模型。

這些結(jié)果并不意味著o1在所有方面都比博士更有能力——只是該模型更擅長解決一些博士應(yīng)該解決的問題。在其他幾個ML基準測試中,o1實現(xiàn)了新的SOTA。

啟用視覺感知能力后,o1在MMMU基準上得分為78.2%,成為第一個與人類專家相當?shù)哪P?。o1還在57個MMLU子類別中的54個上優(yōu)于GPT-4o。思維鏈(CoT)

與人類在回答難題之前會長時間思考類似,o1在嘗試解決問題時會使用思維鏈。通過強化學(xué)習(xí),o1學(xué)會磨練其思維鏈并改進其使用的策略。o1學(xué)會了識別和糾正錯誤,并可以將棘手的步驟分解為更簡單的步驟。o1還學(xué)會了在當前方法不起作用時嘗試不同的方法。這個過程極大地提高了模型的推理能力。編程能力

基于o1進行了初始化并進一步訓(xùn)練了其編程技能后,OpenAI訓(xùn)練得到了一個非常強大的編程模型(o1-ioi)。該模型在2024年國際信息學(xué)奧林匹克競賽(IOI)賽題上得到了213分,達到了排名前49%的水平。并且該模型參與競賽的條件與2024IOI的人類參賽者一樣:需要在10個小時內(nèi)解答6個高難度算法問題,并且每個問題僅能提交50次答案。

針對每個問題,這個經(jīng)過專門訓(xùn)練的o1模型會采樣許多候選答案,然后基于一個測試時選取策略提交其中50個答案。選取標準包括在IOI公共測試案例、模型生成的測試案例以及一個學(xué)習(xí)得到的評分函數(shù)上的性能。

研究表明,這個策略是有效的。因為如果直接隨機提交一個答案,則平均得分僅有156。這說明在該競賽條件下,這個策略至少值60分。

OpenAI發(fā)現(xiàn),如果放寬提交限制條件,則模型性能更是能大幅提升。如果每個問題允許提交1萬次答案,即使不使用上述測試時選取策略,該模型也能得到362.14分——可以得金牌了。

最后,OpenAI模擬了Codeforces主辦的競爭性編程競賽,以展示該模型的編碼技能。采用的評估與競賽規(guī)則非常接近,允許提交10份代碼。GPT-4o的Elo評分為808,在人類競爭對手中處于前11%的水平。該模型遠遠超過了GPT-4o和o1——它的Elo評分為1807,表現(xiàn)優(yōu)于93%的競爭對手。

人類偏好評估

除了考試和學(xué)術(shù)基準之外,OpenAI還在更多領(lǐng)域的具有挑戰(zhàn)性的開放式提示上評估了人類對o1-preview和GPT-4o的偏好。

在這次評估中,人類訓(xùn)練者對o1-preview和GPT-4o的提示進行匿名回答,并投票選出他們更喜歡的回答。在數(shù)據(jù)分析、編程和數(shù)學(xué)等推理能力較強的類別中,o1-preview的受歡迎程度遠遠高于GPT-4o。然而,o1-preview在某些自然語言任務(wù)上并不受歡迎,這表明它并不適合所有用例。

在需要更強大推理能力的領(lǐng)域,人們更青睞o1-preview。安全

思維鏈(CoT)推理為安全和對齊提供了新的思路。OpenAI發(fā)現(xiàn),將模型行為策略整合到推理模型的思維鏈中,可以高效、穩(wěn)健地教導(dǎo)人類價值觀和原則。通過向模型教導(dǎo)自己的安全規(guī)則以及如何在上下文中推理它們,OpenAI發(fā)現(xiàn)推理能力直接有利于模型穩(wěn)健性的證據(jù):o1-preview在關(guān)鍵越獄評估和用于評估模型安全拒絕邊界的最嚴格內(nèi)部基準上取得了顯著的改進。

OpenAI認為,使用思維鏈可以為安全和對齊帶來重大進步,因為1)它能夠以清晰的方式觀察模型思維,并且2)關(guān)于安全規(guī)則的模型推理對于分布外場景更具穩(wěn)健性。

為了對自己的改進進行壓力測試,OpenAI在部署之前根據(jù)自己的安全準備框架進行了一系列安全測試和紅隊測試。結(jié)果發(fā)現(xiàn),思維鏈推理有助于在整個評估過程中提高能力。尤其值得注意的是,OpenAI觀察到了有趣的獎勵黑客攻擊實例。

數(shù)學(xué)能力:在高中AIME數(shù)學(xué)競賽中,o1-mini(70.0%)與o1(74.4%)不相上下,但價格卻便宜很多,并且優(yōu)于o1-preview(44.6%)。o1-mini的得分(約11/15個問題)大約位于美國前500名高中生之列。

編碼能力:在Codeforces競賽網(wǎng)站上,o1-mini的Elo得分為1650,與o1(1673)不相上下,并且高于o1-preview(1258)。此外,o1-mini在HumanEval編碼基準和高中網(wǎng)絡(luò)安全奪旗挑戰(zhàn)(CTF)中也表現(xiàn)出色。

STEM:在一些需要推理的學(xué)術(shù)基準上,例如GPQA(科學(xué))和MATH-500,o1-mini的表現(xiàn)優(yōu)于GPT-4o。o1-mini在MMLU等任務(wù)上的表現(xiàn)則不如GPT-4o,并且由于缺乏廣泛的世界知識而在GPQA基準上落后于o1-preview。

人類偏好評估:OpenAI讓人類評分員在各個領(lǐng)域具有挑戰(zhàn)性的開放式提示上比較o1-mini和GPT-4o。與o1-preview類似,在推理密集型領(lǐng)域,o1-mini比GPT-4o更受歡迎;但在以語言為中心的領(lǐng)域,o1-mini并不比GPT-4o更受歡迎。

在速度層面,OpenAI比較了GPT-4o、o1-mini和o1-preview對一個單詞推理問題的回答。結(jié)果顯示,GPT-4o回答不正確,而o1-mini和o1-preview均回答正確,并且o1-mini得出答案的速度快了大約3-5倍。

如何使用OpenAIo1?

ChatGPTPlus和Team(個人付費版與團隊版)用戶馬上就可以在該公司的聊天機器人產(chǎn)品ChatGPT中開始使用o1模型了。你可以手動選取使用o1-preview或o1-mini。不過,用戶的使用量有限。

目前,每位用戶每周僅能給o1-preview發(fā)送30條消息,給o1-mini發(fā)送50條消息。

是的,很少!不過OpenAI表示正在努力提升用戶的可使用次數(shù),并讓ChatGPT能自動針對給定提示詞選擇使用合適的模型。

至于企業(yè)版和教育版用戶,要到下周才能開始使用這兩個模型。

至于通過API訪問的用戶,OpenAI表示達到了5級API使用量的開發(fā)者可以即刻開始使用這兩個模型開始開發(fā)應(yīng)用原型,但同樣也被限了速:20RPM。什么是5級API使用量?簡單來說,就是已經(jīng)消費了1000美元以上并且已經(jīng)是超過1個月的付費用戶。請看下圖:

OpenAI表示對這兩個模型的API調(diào)用并不包含函數(shù)調(diào)用、流式傳輸(streaming)、系統(tǒng)支持消息等功能。同樣,OpenAI表示正在努力提升這些限制。未來

OpenAI表示,未來除了模型更新之外,還將增加網(wǎng)絡(luò)瀏覽、文件和圖像上傳等功能,以讓這些模型變得更加有用。

「除了新的o1系列模型,我們計劃繼續(xù)開發(fā)和發(fā)布我們的GPT系列模型?!?/p>

參考內(nèi)容:/p>

https://openai.com/index/introducing-openai-o1-preview/

https://openai.com/index/openai-o1-mini-advancing-cost-efficient-reasoning/

https://openai.com/index/learning-to-reason-with-llms/

https://x.com/sama/status/1834283100639297910

Copyright © 2021.Company 元宇宙YITB.COM All rights reserved.元宇宙YITB.COM

囯成人欧美| 欧美日韩亚洲精品区| 亚洲av成人无码在线| 国产成人精品无码一区二区 | 免费欧美视频| 免费在线无码视频观看| 热99国产精品这有里视频| 亚洲二区在线精品| 少妇波霸| 鲁鲁鲁鲁色| 国产经典传媒无码| 偷拍中文亚洲欧美动漫| 天天躁日日躁狠狠躁欧美| 久久午福利| 久久国产精品无套专区| 久久天堂一区二区国产| 日韩精品色婷婷一区| 狠狠久久噜噜熟女| 少妇黄色一级片| 超碰白色| 久久精品国产888| 国产成人无码精品一区二区三区| 精品人妻中文无码| 黔南| 天堂干在线| 少妇真实被内射视频三四区| 国产精品黄色三级| 天天幹狠狠幹| va欧美国产在线视频| 国内在线网友露脸自拍| 亚洲精品不卡久久久久久| 极品久久| 人妻蜜在线| 人妻一区二区三区毛黑又多无码| 影音先锋成人色资源| 美女老师 笑峰| 欧洲多毛裸体XXXXX| Av成人网亚洲| 久久精品艹| 亚洲精品成人aA片麻豆| 国产成人亚洲综合无码精品|