奇米超碰,黄色人妖一级大,欧美亚洲人妻综合,大香蕉一区二区二区四区五区

<bdo id="rakzu"><small id="rakzu"></small></bdo>

^{<fieldset id="rakzu"></fieldset>}

<ol id="rakzu"></ol>

<tt id="rakzu"><pre id="rakzu"><menu id="rakzu"></menu></pre></tt>

元宇宙
Blockchain
Blockchain資訊
OpenAI震撼發(fā)布o1大模型強化學(xué)習(xí)突破LLM推理極限

OpenAI震撼發(fā)布o1大模型強化學(xué)習(xí)突破LLM推理極限

2024年9月13日 22:49

來源：機器之心

大語言模型還能向上突破，OpenAI再次證明了自己的實力。

北京時間9月13日午夜，OpenAI正式公開一系列全新AI大模型，旨在專門解決難題。這是一個重大突破，新模型可以實現(xiàn)復(fù)雜推理，一個通用模型解決比此前的科學(xué)、代碼和數(shù)學(xué)模型能做到的更難的問題。

奧特曼表示，雖然o1的表現(xiàn)仍然存在缺陷，不過你在第一次使用它的時候仍然會感到震撼。

其次，o1給大模型規(guī)模擴展vs性能的曲線帶來了一次上翹。它在大模型領(lǐng)域重現(xiàn)了當年AlphaGo強化學(xué)習(xí)的成功——給越多算力，就輸出越多能，一直到超越人類水平。

也就是從方法上，o1大模型首次證明了語言模型可以進行真正的強化學(xué)習(xí)。

開發(fā)出首個AI軟件工程師Devin的CognitionAI表示，過去幾周一直與OpenAI密切合作，使用Devin評估o1的推理能力。結(jié)果發(fā)現(xiàn)，與GPT-4o相比，o1系列模型對于處理代碼的智能體系統(tǒng)來說是一個重大進步。

最后在實踐中，o1上線之后，現(xiàn)在ChatGPT可以在回答問題前先仔細思考，而不是立即脫口而出答案。就像人類大腦的系統(tǒng)1和系統(tǒng)2，ChatGPT已經(jīng)從僅使用系統(tǒng)1（快速、自動、直觀、易出錯）進化到了可使用系統(tǒng)2思維（緩慢、深思熟慮、有意識、可靠）。這讓它能夠解決以前無法解決的問題。

從今天ChatGPT的用戶體驗來看，這是向前邁進一小步。在簡單的Prompt下，用戶可能不會注意到太大的差異，但如果問一些棘手的數(shù)學(xué)或者代碼問題，區(qū)別就開始明顯了。更重要的是，未來發(fā)展的道路已經(jīng)開始顯現(xiàn)。

總而言之，今晚OpenAI丟出的這個重磅炸彈，已經(jīng)讓整個AI社區(qū)震撼，紛紛表示tql、睡不著覺，深夜已經(jīng)開始抓緊學(xué)習(xí)。接下來，就讓我們看下OpenAIo1大模型的技術(shù)細節(jié)。OpenAIo1工作原理

在技術(shù)博客《LearningtoReasonwithLLMs》中，OpenAI對o1系列語言模型做了詳細的技術(shù)介紹。

OpenAIo1是經(jīng)過強化學(xué)習(xí)訓(xùn)練來執(zhí)行復(fù)雜推理任務(wù)的新型語言模型。特點就是，o1在回答之前會思考——它可以在響應(yīng)用戶之前產(chǎn)生一個很長的內(nèi)部思維鏈。

也就是該模型在作出反應(yīng)之前，需要像人類一樣，花更多時間思考問題。通過訓(xùn)練，它們學(xué)會完善自己的思維過程，嘗試不同的策略，并認識到自己的錯誤。

在OpenAI的測試中，該系列后續(xù)更新的模型在物理、化學(xué)和生物學(xué)這些具有挑戰(zhàn)性的基準任務(wù)上的表現(xiàn)與博士生相似。OpenAI還發(fā)現(xiàn)它在數(shù)學(xué)和編碼方面表現(xiàn)出色。

在國際數(shù)學(xué)奧林匹克（IMO）資格考試中，GPT-4o僅正確解答了13%的問題，而o1模型正確解答了83%的問題。

模型的編碼能力也在比賽中得到了評估，在Codeforces比賽中排名89%。

OpenAI表示，作為早期模型，它還不具備ChatGPT的許多實用功能，例如瀏覽網(wǎng)頁獲取信息以及上傳文件和圖片。

但對于復(fù)雜的推理任務(wù)來說，這是一個重大進步，代表了人工智能能力的新水平。鑒于此，OpenAI將計數(shù)器重置為1，并將該系列模型命名為OpenAIo1。

重點在于，OpenAI的大規(guī)模強化學(xué)習(xí)算法，教會模型如何在數(shù)據(jù)高度有效的訓(xùn)練過程中利用其思想鏈進行高效思考。換言之，類似于強化學(xué)習(xí)的ScalingLaw。

OpenAI發(fā)現(xiàn)，隨著更多的強化學(xué)習(xí)（訓(xùn)練時計算）和更多的思考時間（測試時計算），o1的性能持續(xù)提高。而且擴展這種方法的限制與大模型預(yù)訓(xùn)練的限制有很大不同，OpenAI也還在繼續(xù)研究。

評估

為了突出相對于GPT-4o的推理性能改進，OpenAI在一系列不同的人類考試和機器學(xué)習(xí)基準測試中測試了o1模型。實驗結(jié)果表明，在絕大多數(shù)推理任務(wù)中，o1的表現(xiàn)明顯優(yōu)于GPT-4o。

o1在具有挑戰(zhàn)性的推理基準上比GPT-4o有了很大的改進。

在一個官方演示中，o1-preview解答了一個非常困難的推理問題：當公主的年齡是王子的兩倍時，公主的年齡與王子一樣大，而公主的年齡是他們現(xiàn)在年齡總和的一半。王子和公主的年齡是多少？提供這個問題的所有解。

在2024年AIME考試中，GPT-4o平均只解決了12%(1.8/15)的問題，而o1在每個問題只有一個樣本的情況下平均為74%(11.1/15)，在64個樣本之間達成一致的情況下為83%(12.5/15)，在使用學(xué)習(xí)的評分函數(shù)對1000個樣本重新排序時為93%(13.9/15)。13.9分可以躋身全美前500名，并且高于美國數(shù)學(xué)奧林匹克競賽分數(shù)線。

OpenAI還在GPQADiamond基準上評估了o1，這是一個困難的智力基準，用于測試化學(xué)、物理和生物學(xué)方面的專業(yè)知識。為了將模型與人類進行比較，OpenAI聘請了擁有博士學(xué)位的專家來回答GPQADiamond基準問題。

實驗結(jié)果表明：o1超越了人類專家的表現(xiàn)，成為第一個在該基準測試中做到這一點的模型。

這些結(jié)果并不意味著o1在所有方面都比博士更有能力——只是該模型更擅長解決一些博士應(yīng)該解決的問題。在其他幾個ML基準測試中，o1實現(xiàn)了新的SOTA。

啟用視覺感知能力后，o1在MMMU基準上得分為78.2%，成為第一個與人類專家相當?shù)哪Ｐ?。o1還在57個MMLU子類別中的54個上優(yōu)于GPT-4o。思維鏈（CoT）

與人類在回答難題之前會長時間思考類似，o1在嘗試解決問題時會使用思維鏈。通過強化學(xué)習(xí)，o1學(xué)會磨練其思維鏈并改進其使用的策略。o1學(xué)會了識別和糾正錯誤，并可以將棘手的步驟分解為更簡單的步驟。o1還學(xué)會了在當前方法不起作用時嘗試不同的方法。這個過程極大地提高了模型的推理能力。編程能力

基于o1進行了初始化并進一步訓(xùn)練了其編程技能后，OpenAI訓(xùn)練得到了一個非常強大的編程模型（o1-ioi）。該模型在2024年國際信息學(xué)奧林匹克競賽（IOI）賽題上得到了213分，達到了排名前49%的水平。并且該模型參與競賽的條件與2024IOI的人類參賽者一樣：需要在10個小時內(nèi)解答6個高難度算法問題，并且每個問題僅能提交50次答案。

針對每個問題，這個經(jīng)過專門訓(xùn)練的o1模型會采樣許多候選答案，然后基于一個測試時選取策略提交其中50個答案。選取標準包括在IOI公共測試案例、模型生成的測試案例以及一個學(xué)習(xí)得到的評分函數(shù)上的性能。

研究表明，這個策略是有效的。因為如果直接隨機提交一個答案，則平均得分僅有156。這說明在該競賽條件下，這個策略至少值60分。

OpenAI發(fā)現(xiàn)，如果放寬提交限制條件，則模型性能更是能大幅提升。如果每個問題允許提交1萬次答案，即使不使用上述測試時選取策略，該模型也能得到362.14分——可以得金牌了。

最后，OpenAI模擬了Codeforces主辦的競爭性編程競賽，以展示該模型的編碼技能。采用的評估與競賽規(guī)則非常接近，允許提交10份代碼。GPT-4o的Elo評分為808，在人類競爭對手中處于前11%的水平。該模型遠遠超過了GPT-4o和o1——它的Elo評分為1807，表現(xiàn)優(yōu)于93%的競爭對手。

人類偏好評估

除了考試和學(xué)術(shù)基準之外，OpenAI還在更多領(lǐng)域的具有挑戰(zhàn)性的開放式提示上評估了人類對o1-preview和GPT-4o的偏好。

在這次評估中，人類訓(xùn)練者對o1-preview和GPT-4o的提示進行匿名回答，并投票選出他們更喜歡的回答。在數(shù)據(jù)分析、編程和數(shù)學(xué)等推理能力較強的類別中，o1-preview的受歡迎程度遠遠高于GPT-4o。然而，o1-preview在某些自然語言任務(wù)上并不受歡迎，這表明它并不適合所有用例。

在需要更強大推理能力的領(lǐng)域，人們更青睞o1-preview。安全

思維鏈（CoT）推理為安全和對齊提供了新的思路。OpenAI發(fā)現(xiàn)，將模型行為策略整合到推理模型的思維鏈中，可以高效、穩(wěn)健地教導(dǎo)人類價值觀和原則。通過向模型教導(dǎo)自己的安全規(guī)則以及如何在上下文中推理它們，OpenAI發(fā)現(xiàn)推理能力直接有利于模型穩(wěn)健性的證據(jù)：o1-preview在關(guān)鍵越獄評估和用于評估模型安全拒絕邊界的最嚴格內(nèi)部基準上取得了顯著的改進。

OpenAI認為，使用思維鏈可以為安全和對齊帶來重大進步，因為1）它能夠以清晰的方式觀察模型思維，并且2）關(guān)于安全規(guī)則的模型推理對于分布外場景更具穩(wěn)健性。

為了對自己的改進進行壓力測試，OpenAI在部署之前根據(jù)自己的安全準備框架進行了一系列安全測試和紅隊測試。結(jié)果發(fā)現(xiàn)，思維鏈推理有助于在整個評估過程中提高能力。尤其值得注意的是，OpenAI觀察到了有趣的獎勵黑客攻擊實例。

數(shù)學(xué)能力：在高中AIME數(shù)學(xué)競賽中，o1-mini(70.0%)與o1(74.4%)不相上下，但價格卻便宜很多，并且優(yōu)于o1-preview(44.6%)。o1-mini的得分（約11/15個問題）大約位于美國前500名高中生之列。

編碼能力：在Codeforces競賽網(wǎng)站上，o1-mini的Elo得分為1650，與o1(1673)不相上下，并且高于o1-preview(1258)。此外，o1-mini在HumanEval編碼基準和高中網(wǎng)絡(luò)安全奪旗挑戰(zhàn)(CTF)中也表現(xiàn)出色。

STEM：在一些需要推理的學(xué)術(shù)基準上，例如GPQA（科學(xué)）和MATH-500，o1-mini的表現(xiàn)優(yōu)于GPT-4o。o1-mini在MMLU等任務(wù)上的表現(xiàn)則不如GPT-4o，并且由于缺乏廣泛的世界知識而在GPQA基準上落后于o1-preview。

人類偏好評估：OpenAI讓人類評分員在各個領(lǐng)域具有挑戰(zhàn)性的開放式提示上比較o1-mini和GPT-4o。與o1-preview類似，在推理密集型領(lǐng)域，o1-mini比GPT-4o更受歡迎；但在以語言為中心的領(lǐng)域，o1-mini并不比GPT-4o更受歡迎。

在速度層面，OpenAI比較了GPT-4o、o1-mini和o1-preview對一個單詞推理問題的回答。結(jié)果顯示，GPT-4o回答不正確，而o1-mini和o1-preview均回答正確，并且o1-mini得出答案的速度快了大約3-5倍。

如何使用OpenAIo1？

ChatGPTPlus和Team（個人付費版與團隊版）用戶馬上就可以在該公司的聊天機器人產(chǎn)品ChatGPT中開始使用o1模型了。你可以手動選取使用o1-preview或o1-mini。不過，用戶的使用量有限。

目前，每位用戶每周僅能給o1-preview發(fā)送30條消息，給o1-mini發(fā)送50條消息。

是的，很少！不過OpenAI表示正在努力提升用戶的可使用次數(shù)，并讓ChatGPT能自動針對給定提示詞選擇使用合適的模型。

至于企業(yè)版和教育版用戶，要到下周才能開始使用這兩個模型。

至于通過API訪問的用戶，OpenAI表示達到了5級API使用量的開發(fā)者可以即刻開始使用這兩個模型開始開發(fā)應(yīng)用原型，但同樣也被限了速：20RPM。什么是5級API使用量？簡單來說，就是已經(jīng)消費了1000美元以上并且已經(jīng)是超過1個月的付費用戶。請看下圖：

OpenAI表示對這兩個模型的API調(diào)用并不包含函數(shù)調(diào)用、流式傳輸（streaming）、系統(tǒng)支持消息等功能。同樣，OpenAI表示正在努力提升這些限制。未來

OpenAI表示，未來除了模型更新之外，還將增加網(wǎng)絡(luò)瀏覽、文件和圖像上傳等功能，以讓這些模型變得更加有用。

「除了新的o1系列模型，我們計劃繼續(xù)開發(fā)和發(fā)布我們的GPT系列模型?！?/p>

參考內(nèi)容：/p>

https://openai.com/index/introducing-openai-o1-preview/

https://openai.com/index/openai-o1-mini-advancing-cost-efficient-reasoning/

https://openai.com/index/learning-to-reason-with-llms/

https://x.com/sama/status/1834283100639297910

免責(zé)聲明:OpenAI震撼發(fā)布o1大模型強化學(xué)習(xí)突破LLM推理極限文章轉(zhuǎn)發(fā)自互聯(lián)網(wǎng)，版權(quán)歸其所有。
文章內(nèi)容不代表本站立場和任何投資暗示。加密貨幣市場極其波動，風(fēng)險很高，可能不適合所有投資者。在投資加密貨幣之前，請確保自己充分了解市場和投資的風(fēng)險，并考慮自己的財務(wù)狀況和風(fēng)險承受能力。此外，請遵循您所在國家的法律法規(guī)，以及遵守交易所和錢包提供商的規(guī)定。對于任何因使用加密貨幣所造成的投資損失或其他損失，本站不承擔(dān)任何責(zé)任。

Copyright © 2021.Company 元宇宙YITB.COM All rights reserved.元宇宙YITB.COM

囯成人欧美| 欧美日韩亚洲精品区| 亚洲av成人无码在线| 国产成人精品无码一区二区 | 免费欧美视频| 免费在线无码视频观看| 热99国产精品这有里视频| 亚洲二区在线精品| 少妇波霸| 鲁鲁鲁鲁色| 国产经典传媒无码| 偷拍中文亚洲欧美动漫| 天天躁日日躁狠狠躁欧美| 久久午福利| 久久国产精品无套专区| 久久天堂一区二区国产| 日韩精品色婷婷一区| 狠狠久久噜噜熟女| 少妇黄色一级片| 超碰白色| 久久精品国产888| 国产成人无码精品一区二区三区| 精品人妻中文无码| 黔南| 天堂干在线| 少妇真实被内射视频三四区| 国产精品黄色三级| 天天幹狠狠幹| va欧美国产在线视频| 国内在线网友露脸自拍| 亚洲精品不卡久久久久久| 极品久久| 人妻蜜在线| 人妻一区二区三区毛黑又多无码| 影音先锋成人色资源| 美女老师笑峰| 欧洲多毛裸体XXXXX| Av成人网亚洲| 久久精品艹| 亚洲精品成人aA片麻豆| 国产成人亚洲综合无码精品|

<samp id="4prvg"><tbody id="4prvg"><tt id="4prvg"></tt></tbody></samp>

<center id="4prvg"><label id="4prvg"></label></center>

<rt id="4prvg"><video id="4prvg"><sub id="4prvg"></sub></video></rt>

<mark id="4prvg"></mark>

<tfoot id="4prvg"><optgroup id="4prvg"></optgroup></tfoot>