福建公司網(wǎng)站建設一條龍全包(抽絲剝繭的蛻變)抽絲剝繭典故出自哪里,
如何客觀評估大模型代碼能力,促進大模型代碼能力迭代進步?2023 年中央經(jīng)濟工作會議指出,要大力推進新型工業(yè)化,發(fā)展數(shù)字經(jīng)濟,加快推動 AI 發(fā)展在 AI 大模型發(fā)展熱潮中,國內 " 產學研用 " 等各方積極布局、大力投身大模型研發(fā)應用。
目前,國內已經(jīng)發(fā)布超 200 個大模型,通過國家網(wǎng)信辦備案的大模型超過 20 個,大模型已進入規(guī)模落地應用階段據(jù)賽迪研究院數(shù)據(jù),2023 年我國大語言模型市場規(guī)模將達到 132.3 億元,增長率達 110%。
近日,在 2023 通信產業(yè)大會暨第 18 屆通信技術年會上,《通信產業(yè)報》全媒體發(fā)布了2023 年度 AI 大模型先鋒榜 TOP50,受到業(yè)界廣泛關注那么,作為大模型核心關鍵能力的代碼能力,是怎樣呈現(xiàn)出大模型理解、邏輯、推理、生成等綜合能力,又該如何客觀評估大模型代碼能力,促進大模型代碼能力迭代進步?同日在大會上,中國軟件評測中心人工智能研究測評事業(yè)部聯(lián)合中國科學院信息工程研究所孟國柱團隊,依托人工智能場景化應用與智能系統(tǒng)測評工信部重點實驗室,發(fā)布了。
《大語言模型代碼能力測評分析報告》(以下簡稱《報告》),從評測實證大語言模型的真正代碼能力《大語言模型代碼能力測評分析報告》在 2023 通信產業(yè)大會暨第 18 屆通信技術年會上發(fā)布部分大模型表現(xiàn)優(yōu)異代碼能力是大模型核心關鍵能力,是大模型理解、邏輯、推理、生成等綜合能力的體現(xiàn),其已成為程序員輔助編程必備助手,能夠編寫、翻譯、補全代碼,幫助定位和修改錯誤,大大提高了編程效率,正給軟件開發(fā)帶來變革。
《報告》從代碼生成、代碼翻譯、代碼糾錯、代碼補全、代碼安全五大維度構建測評體系,面向各能力項建立契合測試任務要求的數(shù)據(jù)集,設計了涵蓋代碼完整性、功能完備度、文本相似度三項一級指標,編譯正確率、運行時正確率、運行超時率、pass@k、樣例通過率、CodeBleu 六項二級指標
基于該測評規(guī)范,對文心一言、訊飛星火、智譜清言、通義千問、MINIMAX、CodeLlama 等 5 款最新版本國內大模型和 1 款開源大模型開展測評,分析大模型代碼能力表現(xiàn),形成國內第一份專門測評分析大模型輔助編程能力的報告。
整體看,多數(shù)大模型能夠有效生成可運行的代碼,并提供有助于理解的注釋,部分模型表現(xiàn)優(yōu)異,代碼格式規(guī)范、正確率高其中,訊飛星火和通義干問在編寫代碼方面表現(xiàn)優(yōu)異,代碼格式規(guī)范,正確率高代碼生成方面,大模型能夠較好理解題意并編寫對應代碼,具備基本的算法、邏輯、編程語言等相關知識,生成的代碼質量較高,大部分能夠順利通過編譯并執(zhí)行,一定比例能夠通過測試用例。
代碼翻譯方面,相對于無參考代碼的代碼生成任務,所有大模型均能夠按要求將某種常見編程語言代碼轉換成指定的編程語言代碼,所轉換的大部分代碼能夠有效執(zhí)行其中,文心一言 4.0、訊飛星火、通義千問表現(xiàn)突出,代碼正確率較高。
代碼糾錯方面,給定錯誤代碼位置情況下,大模型能夠較準確完成如變量、運算符、關鍵詞等簡單錯誤的修改代碼補全方面,大語言模型的小規(guī)模代碼補全能力較好,能夠識別并模仿給定代碼的變量命名和格式,生成與給定代碼風格一致的代碼。
大模型編程能力參差不齊雖然 AI 大模型的發(fā)展取得了較大進步,但不可忽視的是,大模型編程能力參差不齊,存在不足《報告》指出,模型間編程能力參差不齊,一些模型在復雜任務上理解能力有限;在處理復雜的編程環(huán)境和輸出格式要求時,模型的表現(xiàn)通常不佳;幾乎所有模型在代碼生成時都可能出現(xiàn)邏輯錯誤,部分模型還會犯基本的語法錯誤。
代碼生成方面,功能完備性仍然較低大模型生成的代碼語法錯誤較少,但是運行時錯誤比例仍然很高;算法編寫的成功率仍然較低,即完全通過測試用例的代碼比例仍然較低,尤其復雜的問題代碼翻譯方面,不同語言的理解能力有差異,導致翻譯效果不同。
大語言模型翻譯任務的效果與源語言及目標語言的種類相關性高,當目標語言為相對簡單的 Python 時,翻譯成功率高;而當源語言為 Python 時,目標語言為 C/java 時,翻譯成功率則會略低代碼糾錯方面,總體表現(xiàn)不佳。
錯誤定位能力不足,大模型無法有效指出代碼中的錯誤位置,有時定位點與實際點距離相差較大;大模型的修復能力建立在提前告知錯誤位置,影響實用性;面對復雜的代碼任務,修正后的代碼往往無法正常運行,歸因于模型處理的內容長度有限,模型本身存在的限制。
代碼補全方面,大模型的上下文長度限制了其補全能力受限于模型設計,模型只能考慮有限的代碼上下文,通常只能處理片段級別的補全,而不具有長期的記憶,難以處理程序語言中遠距離的依賴關系;生成補全的格式不穩(wěn)定,在使用時需要人工額外調整。
大語言模型代碼能力如何發(fā)展?業(yè)內預測,2024 年大模型不會被壟斷,不會像操作系統(tǒng)一樣全世界只有幾套,其發(fā)展路徑更像電腦,會無處不在繼 2023 澎湃噴涌的大模型發(fā)展浪潮后,大語言模型代碼能力該如何發(fā)展?。
第一,提高代碼語料質量,擴充代碼相關多模態(tài)數(shù)據(jù)集全面提升大模型訓練集中代碼語料的質量,使語料覆蓋高質量的代碼倉庫,設置合理的過濾規(guī)則,確保語料具有合理的文件長度、代碼行長度、字母數(shù)字比,獲得完整、安全、正確、干凈和通用的代碼語料庫。
大模型的代碼任務通常是多模態(tài)的任務,需要同時理解自然語言 / 數(shù)學公式 / 代碼語言的信息,通過構造多模態(tài)對齊數(shù)據(jù)集,提升大模型對代碼相關跨模態(tài)任務的解決能力第二,加強代碼安全對齊算法自然語言需要倫理道德對齊,代碼也亟需安全對齊。
廠商需要設計 RLHF 階段代碼安全專家的介入,訓練模型生成安全無漏洞代碼的傾向,同時可以設計相關程序的測試流程,完成語法語義正確性的自動對齊第三,拓展大模型上下文窗口不同于自然語言任務,代碼相關的各項任務對上下文窗口的長度都極為敏感,提升大模型的上下文訓練窗口,可以有效提升大模型在實際應用中理解 / 編寫代碼的能力。
第四,加強針對大模型的缺陷檢測和安全增強實際生產中往往在預訓練模型中進行增量訓練或微調,這些大模型可能在代碼生成方面存在缺陷和漏洞,如何對預訓練大模型的缺陷進行有效檢測和安全增強,或通過外部手段規(guī)避風險,是未來的研究熱點和發(fā)展趨勢。
大模型結合上百 G 代碼 / 文本混合數(shù)據(jù)訓練,已在多種任務中展現(xiàn)出較好的代碼能力,其已成為程序員日常必備工具,顯著提高了編程效率未來,大模型的代碼能力如何,用戶在利用大模型輔助編程時應該如何選擇、如何規(guī)避風險,如何在大模型現(xiàn)有編程能力上進行更好的調優(yōu),是產業(yè)界需要突破的挑戰(zhàn)。
采寫:胡媛圖表:曙念