合肥網(wǎng)站建設(shè)多少錢僅需500元(如果the)如果如果,
一、結(jié)論寫在前面論文整理了闡述代碼如何增強(qiáng)LLM以及代碼如何幫助LLM成為IA(intelligent agents)的文獻(xiàn)首先,代碼具有自然語(yǔ)言的順序可讀性,同時(shí)也具有符號(hào)表示的抽象和圖結(jié)構(gòu),這使它成為知識(shí)感知和推理的導(dǎo)管,作為基于語(yǔ)言建模目標(biāo)的LLM訓(xùn)練語(yǔ)料庫(kù)的組成部分。
論文觀察到,代碼訓(xùn)練后,LLM i)改進(jìn)了它們的編程技能和推理能力,ii)可以生成高度規(guī)范化的功能,使其可以靈活地連接到跨模態(tài)和領(lǐng)域的各種功能端,iii)與代碼執(zhí)行環(huán)境中集成的評(píng)估模塊進(jìn)行交互,實(shí)現(xiàn)自動(dòng)自我改進(jìn)。
此外,論文發(fā)現(xiàn)代碼訓(xùn)練帶來的LLM能力增強(qiáng)有利于它們下游的IA(intelligent agents)應(yīng)用,體現(xiàn)在IA工作流程的具體操作步驟上,涉及決策、執(zhí)行和自我改進(jìn)除了回顧以前的研究,論文還提出了該領(lǐng)域的幾個(gè)挑戰(zhàn),以作為潛在未來方向的指導(dǎo)因素。
圖1:說明代碼如何賦能大型語(yǔ)言模型(LLM),并增強(qiáng)其作為智能體(IA)的下游應(yīng)用而傳統(tǒng)LLM擅長(zhǎng)于常規(guī)自然語(yǔ)言任務(wù),如文檔分類和問答,使用人類可解釋和機(jī)器可執(zhí)行的代碼進(jìn)一步預(yù)訓(xùn)練或微調(diào)LLM,可作為額外的增強(qiáng)——有點(diǎn)像裝備法師擁有魔法加強(qiáng)的魔杖。
這通過復(fù)雜的操作步驟顯著提升了它們作為IA的性能二、論文的簡(jiǎn)單介紹代碼已經(jīng)成為大型語(yǔ)言模型(LLM)訓(xùn)練數(shù)據(jù)中的組成部分,包括如Llama2、GPT3.5系列和GPT-4基于代碼訓(xùn)練的LLM受到歡迎,不僅僅是因?yàn)楂@得編程技能支持商業(yè)應(yīng)用,如Github Copilot,也是因?yàn)樗倪M(jìn)了模型以前缺乏的推理能力。
因此,LLM能快速成為智能體(intelligent agents,IA)的主要決策中心,顯示出代碼訓(xùn)練和先進(jìn)工具學(xué)習(xí)帶來的指數(shù)級(jí)能力增長(zhǎng)這些基于LLM的IA準(zhǔn)備處理更廣泛、更復(fù)雜的任務(wù),包括下游應(yīng)用如多agent環(huán)境模擬和科學(xué)AI。
如圖1所示,論文旨在解釋代碼特定訓(xùn)練在通用LLM訓(xùn)練范式中的廣泛采用,以及代碼如何增強(qiáng)LLM的IA角色與之前只關(guān)注代碼生成能力評(píng)估和比較,或僅列出IA任務(wù)的代碼-LLM綜述不同,論文旨在基于相關(guān)論文的分類(參見圖2),全面理解代碼作為IA如何幫助LLM以及在何處使LLM受益。
圖2:我們文章的組織結(jié)構(gòu),以及精心整理的最具代表性的工作列表完整的工作列表見附錄D對(duì)代碼的定義論文將代碼定義為任何既可由機(jī)器執(zhí)行又可供人類解釋的形式語(yǔ)言例如,人類可讀的編程語(yǔ)言屬于我們討論的范圍,而低級(jí)語(yǔ)言(如基于二進(jìn)制指令的機(jī)器語(yǔ)言)由于缺乏人類可解釋性而被排除在外。
此外,預(yù)定義的形式語(yǔ)言(如WebGPT中使用的函數(shù)集)也包括在內(nèi),因?yàn)樗鼈兛梢砸曰谝?guī)則的方式解析和執(zhí)行LLM代碼訓(xùn)練的典型方法當(dāng)以編程語(yǔ)言(如Python、C等)作為語(yǔ)料庫(kù)時(shí),訓(xùn)練數(shù)據(jù)通常來源于公開可訪問的代碼庫(kù),如GitHub。
這個(gè)過程產(chǎn)生一個(gè)體量與自然語(yǔ)言預(yù)訓(xùn)練相當(dāng)?shù)恼Z(yǔ)料庫(kù),因此將使用這種大量代碼的訓(xùn)練稱為代碼預(yù)訓(xùn)練訓(xùn)練策略涉及在預(yù)訓(xùn)練自然語(yǔ)言LLM上訓(xùn)練代碼,如Codex,或從零開始訓(xùn)練LLM,使用自然語(yǔ)言和代碼語(yǔ)料庫(kù)的混合,如CodeLLM。
相反,當(dāng)利用其他預(yù)定義的形式語(yǔ)言進(jìn)行訓(xùn)練時(shí),目標(biāo)轉(zhuǎn)變?yōu)槭鼓P瓦m應(yīng)特定函數(shù)的應(yīng)用、數(shù)學(xué)證明公式、SQL和類似構(gòu)造由于與預(yù)訓(xùn)練自然語(yǔ)言語(yǔ)料庫(kù)相比,這個(gè)數(shù)據(jù)集更小,將這種訓(xùn)練過程稱為代碼微調(diào)類似地,研究人員在此過程中應(yīng)用語(yǔ)言建模損失來優(yōu)化LLM。
與自然語(yǔ)言相比(參見A.1中的案例研究),代碼更具結(jié)構(gòu)性,具有從過程化編程中派生的邏輯、步驟可執(zhí)行的過程,以及明確定義、模塊化的函數(shù),這些函數(shù)組成了可圖形表示的抽象此外,代碼通常伴隨著一個(gè)自包含的編譯和執(zhí)行環(huán)境。
基于這些代碼特征的見解,論文顯示,將代碼集成到LLM訓(xùn)練中i)增強(qiáng)了它們的編程和推理能力:OpenAI的GPT Codex等在代碼上預(yù)訓(xùn)練LLM擴(kuò)大了LLM任務(wù)范圍,超越自然語(yǔ)言這樣的模型支持各種應(yīng)用,包括為數(shù)學(xué)理論生成代碼、通用編程任務(wù)以及數(shù)據(jù)檢索。
代碼需要產(chǎn)生邏輯上連貫的、順序的步驟序列,這對(duì)于有效執(zhí)行是必需的此外,代碼中每個(gè)步驟的可執(zhí)行性允許逐步邏輯驗(yàn)證利用代碼的這兩個(gè)特性并在預(yù)訓(xùn)練中嵌入它們,提高了LLM在許多傳統(tǒng)自然語(yǔ)言下游任務(wù)上的鏈條思維(CoT)性能,表明復(fù)雜推理技能得到改進(jìn)。
從代碼的結(jié)構(gòu)化格式中隱式學(xué)習(xí),代碼LLM在常識(shí)結(jié)構(gòu)化推理任務(wù)(如與標(biāo)記、HTML和圖表理解相關(guān)的任務(wù))上表現(xiàn)出進(jìn)一步改進(jìn)代碼預(yù)訓(xùn)練在三個(gè)關(guān)鍵領(lǐng)域?qū)LM的幫助:i)提高編程素養(yǎng);ii)賦能復(fù)雜的推理能力;iii)促進(jìn)結(jié)構(gòu)化常識(shí)知識(shí)的獲取,如圖3所示。
圖3:代碼預(yù)訓(xùn)練如何提升LLM的性能 ii)使模型能夠在決策過程中直接生成可執(zhí)行的細(xì)粒度步驟,從而通過函數(shù)調(diào)用輕松擴(kuò)展各種工具模塊(§4);iii)將LLM置于代碼執(zhí)行環(huán)境中,允許它們從集成的評(píng)估模塊接收自動(dòng)反饋并進(jìn)行自我改進(jìn)。
此外,隨著LLM在復(fù)雜現(xiàn)實(shí)世界任務(wù)中成為IA的關(guān)鍵決策者,論文還探討了這些優(yōu)勢(shì)如何促進(jìn)其在這方面的功能,在以下幾個(gè)方面:i)增強(qiáng)IA的感知和規(guī)劃技能方面的決策;ii)通過直接的動(dòng)作原語(yǔ)歸結(jié)和模塊化記憶組織來促進(jìn)執(zhí)行
iii)提供交互環(huán)境進(jìn)行自我修正和自我改進(jìn)
圖4:以代碼為中心的工具調(diào)用范式為L(zhǎng)LM和各種功能端之間提供了統(tǒng)一的接口,從而實(shí)現(xiàn)許多跨模態(tài)和跨領(lǐng)域的任務(wù)
表1:將LLM連接到不同功能端以執(zhí)行非平凡任務(wù)的代表性工作初始工作將工具調(diào)用僵硬地嵌入LLM的推理機(jī)制中(標(biāo)注為“*”),導(dǎo)致靈活性降低和工具可訪問性受限近期的代碼中心范式通過編程語(yǔ)言或預(yù)定義函數(shù)在LLM和功能端之間建立連接(標(biāo)注為“?”)。
這種方法增強(qiáng)了LLM調(diào)用各種工具和執(zhí)行模塊功能的可擴(kuò)展性
圖5:LLM可以嵌入到代碼執(zhí)行環(huán)境中,在那里它們可以收集可靠的、自動(dòng)化的、可定制的反饋來進(jìn)行自我改進(jìn)
圖6:該圖展示了基于LLM的智能代理的完整工作流程,將代碼LLM的能力映射到具體階段:步驟(2)中的基于代碼的規(guī)劃,步驟(3)中的模塊化動(dòng)作解析和工具創(chuàng)建,以及步驟(5)中的自動(dòng)反饋收集以增強(qiáng)代理自我改進(jìn)。
整個(gè)循環(huán)中的步驟0-10共同有助于改進(jìn)結(jié)構(gòu)化信息理解和感知論文標(biāo)題:If LLM Is the Wizard, Then Code Is the Wand: A Survey on How Code Empowers Large Language Models to Serve as Intelligent Agents
論文鏈接:https://arxiv.org/abs/2401.00812?