上海網(wǎng)站建設(shè)多少錢僅需500元(字節(jié)跳動(dòng) Apple)字節(jié)跳動(dòng)公司簡(jiǎn)介,
《科創(chuàng)板日?qǐng)?bào)》12月18日訊(記者 黃心怡) 近日,外媒The Verge曝出字節(jié)跳動(dòng)正在研發(fā)一個(gè)被稱為“種子計(jì)劃”的AI大模型項(xiàng)目,該項(xiàng)目在訓(xùn)練和評(píng)估模型等多個(gè)研發(fā)階段調(diào)用了OpenAI的應(yīng)用程序接口(API)
,并使用ChatGPT輸出的數(shù)據(jù)進(jìn)行模型訓(xùn)練,這違反了微軟和OpenAI的開發(fā)者許可不久后,OpenAI發(fā)言人Niko Felix發(fā)表聲明,確認(rèn)字節(jié)跳動(dòng)的賬戶已被暫停并將做進(jìn)一步調(diào)查對(duì)此,字節(jié)跳動(dòng)回應(yīng)《科創(chuàng)板日?qǐng)?bào)》稱:。
今年年初,有部分工程師將GPT的API服務(wù)應(yīng)用于較小模型的實(shí)驗(yàn)性項(xiàng)目研究中在4月公司引入GPT API調(diào)用規(guī)范檢查后,這種做法已經(jīng)停止公司在使用OpenAI相關(guān)服務(wù)時(shí),強(qiáng)調(diào)要遵守其使用條款,也正與OpenAI聯(lián)系溝通,以澄清外部報(bào)道可能引發(fā)的誤解。
多名業(yè)內(nèi)人士對(duì)記者表示,把GPT的輸出結(jié)果作為訓(xùn)練集來訓(xùn)練自己的模型,在國(guó)內(nèi)大廠里這種做法較為普遍,因?yàn)檫@樣的開發(fā)效率更高▍字節(jié)跳動(dòng):部分工程師曾將GPT的API服務(wù)應(yīng)用于實(shí)驗(yàn)性項(xiàng)目中The Verge的報(bào)道中提到,字節(jié)跳動(dòng)發(fā)言人Jodi Seth表示,GPT生成的數(shù)據(jù)在種子計(jì)劃的開發(fā)早期就于注釋模型,而今年年中被從字節(jié)跳動(dòng)的訓(xùn)練數(shù)據(jù)中刪除。
Jodi Seth還在一份聲明中表示,在字節(jié)的海外市場(chǎng)中的一些服務(wù)使用了OpenAI的API但在國(guó)內(nèi)的“豆包”,使用的是字節(jié)自主開發(fā)的“云雀”模型OpenAI發(fā)言人則聲明稱:“雖然字節(jié)跳動(dòng)對(duì)OpenAI的API使用量很少,但在進(jìn)一步調(diào)查期間,我們已暫停了他們的帳戶,如果發(fā)現(xiàn)他們不遵守這些政策,我們將要求他們進(jìn)行必要的更改或終止他們的帳戶。
”之后,字節(jié)跳動(dòng)方面向《科創(chuàng)板日?qǐng)?bào)》記者介紹了公司使用OpenAI服務(wù)相關(guān)情況今年年初,當(dāng)技術(shù)團(tuán)隊(duì)剛開始進(jìn)行大模型的初期探索時(shí),有部分工程師將GPT的API服務(wù)應(yīng)用于較小模型的實(shí)驗(yàn)性項(xiàng)目研究中字節(jié)相關(guān)負(fù)責(zé)人稱,。
該模型僅為測(cè)試,沒有計(jì)劃上線,也從未對(duì)外使用在4月公司引入GPT API調(diào)用規(guī)范檢查后,這種做法已經(jīng)停止同時(shí)在今年4月,字節(jié)大模型團(tuán)隊(duì)提出了明確的內(nèi)部要求,不得將GPT模型生成的數(shù)據(jù)添加到字節(jié)大模型的訓(xùn)練數(shù)據(jù)集,并培訓(xùn)工程師團(tuán)隊(duì)在使用GPT時(shí)遵守服務(wù)條款。
9月,公司內(nèi)部又進(jìn)行了一輪檢查,采取措施進(jìn)一步保證對(duì)GPT的API調(diào)用符合規(guī)范要求例如分批次抽樣檢測(cè)模型輸出結(jié)果與GPT的相似度,避免數(shù)據(jù)標(biāo)注人員私自使用GPT該負(fù)責(zé)人稱,未來幾天里,會(huì)再次全面檢查,以確保嚴(yán)格遵守相關(guān)服務(wù)的使用條款。
記者了解到,字節(jié)跳動(dòng)所涉嫌違反的是OpenAI商業(yè)條款,其中提到“不得用使用(大模型)輸出來開發(fā)任何與OpenAI的產(chǎn)品和服務(wù)有競(jìng)爭(zhēng)的人工智能模型”不過,這版條例的最早版本發(fā)布于8月28日按照字節(jié)跳動(dòng)的說法,其對(duì)于GPT模型的使用在條例發(fā)布之前。
▍業(yè)內(nèi)人士:利用國(guó)外模型的輸出結(jié)果來訓(xùn)練較為普遍在OpenAI和字節(jié)跳動(dòng)的矛盾背后,是當(dāng)前ChatGPT引發(fā)的全球大模型熱潮《北京市人工智能行業(yè)大模型創(chuàng)新應(yīng)用白皮書(2023年)》顯示,截至2023年10月,我國(guó)10億參數(shù)規(guī)模以上的大模型廠商及高校院所共計(jì)254家,分布于20余個(gè)省市/地區(qū)。
隨著國(guó)內(nèi)廠商加入“百模大戰(zhàn)”中,爭(zhēng)相推出自家品牌的大模型產(chǎn)品,有業(yè)內(nèi)人士對(duì)記者表示,為了盡快跟上節(jié)奏,一些企業(yè)用國(guó)外模型的API先進(jìn)行業(yè)務(wù)試水,訓(xùn)練模型的情況并不少見按照外媒的報(bào)道,除了調(diào)用GPT的API服務(wù),字節(jié)也使用ChatGPT輸出的數(shù)據(jù)進(jìn)行模型訓(xùn)練。
某AI資深研發(fā)人士對(duì)《科創(chuàng)板日?qǐng)?bào)》記者表示,把GPT的輸出結(jié)果作為訓(xùn)練集來訓(xùn)練自己的模型,在國(guó)內(nèi)大廠里這種做法較為普遍,因?yàn)檫@樣效率更高此前,創(chuàng)新工廠董事長(zhǎng)兼CEO李開復(fù)旗下的“零一萬物”大模型也被質(zhì)疑完全使用LLaMA的架構(gòu),只對(duì)兩個(gè)張量(Tensor)名稱進(jìn)行修改。
零一萬物對(duì)此回應(yīng)稱:零一萬物研發(fā)大模型的結(jié)構(gòu)設(shè)計(jì)基于GPT成熟結(jié)構(gòu),借鑒了行業(yè)頂尖水平的公開成果,由于大模型技術(shù)發(fā)展還在非常初期,與行業(yè)主流保持一致的結(jié)構(gòu),更有利于整體的適配與未來的迭代不久前,零一萬物又再度發(fā)聲表示,公司內(nèi)部經(jīng)過幾個(gè)周的國(guó)際國(guó)內(nèi)法律研判,已經(jīng)確認(rèn)完全不涉及套殼、抄襲,并給出了進(jìn)一步的澄清。
(科創(chuàng)板日?qǐng)?bào)記者 黃心怡)舉報(bào)/反饋