国产玉足榨精视频在线_亚洲日韩国产第一区_男人都懂的网站在线观看免费_久久91亞洲精品中文字幕奶水_按摩房技师激情国产精品_无人在线观看视频在线观看_年轻女教师2免费播放_欧洲熟妇色xxⅩx欧美老妇多毛_91爱视频成人在线第一页_欧美日韩中文字幕成人网

日志樣式

太原企業(yè)網(wǎng)站建設500元全包(字節(jié)ohayoo)字節(jié)kite,

出品|虎嗅科技組作者|齊健編輯|王一鵬頭圖|視覺中國在大模型熱潮中,一直保持低調的字節(jié)跳動,日前也被曝出了“套殼“的瓜當?shù)貢r間12月15日,外媒The Verge曝出字節(jié)跳動正在秘密研發(fā)一個被稱為“種子計劃”(Project Seed)的AI大模型項目。

據(jù)稱該項目在訓練和評估模型等多個研發(fā)階段調用了OpenAI的應用程序接口(API),并使用ChatGPT輸出的數(shù)據(jù)進行模型訓練在API調用和對輸出內容的使用方面,OpenAI的使用協(xié)議明確規(guī)定了:禁止使用輸出開發(fā)競爭模型。

在2023年11月14日更新的使用條款中還規(guī)定了:不得嘗試或協(xié)助任何人進行逆向工程、反編譯或發(fā)現(xiàn)OpenAI服務的源代碼或底層組件,包括我們的模型、算法或系統(tǒng)(除非適用法律禁止此限制)不得自動或以編程方式提取數(shù)據(jù)或輸出(定義如下)。

不得表示輸出是人類生成的,但事實并非如此。OpenAI的使用條款中對于違規(guī)用戶的處理辦法是:在提前通知的情況下,隨時終止服務。

OpenAI服務條款中禁止的事項而目前,隸屬于字節(jié)跳動公司名下的部分GPT使用權限均已被OpenAI封禁OpenAI發(fā)言人Niko Felix在一份聲明中表示:“所有 API 客戶必須遵守我們的使用政策,以確保我們的技術用于正確用途。

雖然字節(jié)跳動對OpenAI的API使用量很少,但在進一步調查期間,我們已暫停了他們的帳戶,如果我們發(fā)現(xiàn)他們的使用不遵守這些政策,我們將要求他們進行必要的更改或終止他們的帳戶”真的“套”了嗎?首先可以確定的是,字節(jié)跳動肯定是在業(yè)務當中使用了OpenAI的API。

The Verge的報道中提到,字節(jié)跳動發(fā)言人Jodi Seth表示,GPT生成的數(shù)據(jù)在 Project Seed 開發(fā)的早期就用于注釋模型,并在 2019 年中期被從字節(jié)跳動的訓練數(shù)據(jù)中刪除不過,Jodi Seth在一份聲明中也表示,。

在字節(jié)的海外市場中的一些服務使用了OpenAI的API但在國內的“豆包”,使用的是字節(jié)自主開發(fā)的“云雀”模型據(jù)一些與字節(jié)跳動海外業(yè)務相關的人士表示,字節(jié)跳動的海外業(yè)務使用的是OpenAI在微軟Azure上的云服務Azure OpenAI。

調用OpenAI的API,對于公司和個人來說都是很平常的事情并不能因此就說大模型研發(fā)公司調用了OpenAI的API是抄襲或是套用數(shù)據(jù)不過,The Verge在報道中提到了字節(jié)跳動的一些內部文件可以證明字節(jié)跳動正在使用ChatGPT輸出的數(shù)據(jù)進行模型訓練,。

“有員工在飛書上討論了如何‘數(shù)據(jù)脫敏’以掩蓋調用OpenAI的API進行模型訓練的行為”虎嗅向一些與字節(jié)跳動AI研發(fā)團隊有關的人士,詢問了字節(jié)跳動是否使用了ChatGPT輸出的數(shù)據(jù)訓練模型,得到的回復均是“不方便評價”。

一位火山引擎團隊人士向虎嗅透露,字節(jié)AI研發(fā)團隊在模型訓練上投入的算力非??捎^,“不管數(shù)據(jù)來源如何,在大語言模型訓練方面,AI團隊確實是在刻苦研發(fā)的”此外,The Verge的報道中還提到”他們(字節(jié))說要確保一切都合法,只是不想被抓。

“多位工程大模型從業(yè)者對虎嗅表示,這種觀點相當片面,甚至有些不懷好意“面向公眾開放的AI大模型,最重要的就是內容安全問題,不管訓練過程中是否用過OpenAI的數(shù)據(jù),都不可能直接把這些輸出這些內容”一位參與某國內AI大模型內容審核工作的人士向虎嗅表示,目前國內AI大模型對于數(shù)據(jù)合規(guī)、安全性的考慮相當嚴格,甚至是模型產品研發(fā)過程中的首要考量。

有趣的是,虎嗅就訓練數(shù)據(jù)問題向字節(jié)跳動的語言模型產品“豆包”提問了幾輪。得到的回復均是沒有采用過OpenAI的技術或數(shù)據(jù)。

字節(jié)跳動大模型產品“豆包”的問答截圖數(shù)據(jù)“套殼”很普遍事實上,在訓練過程中用到ChatGPT輸出的內容,雖然有違OpenAI的使用條款,但這在LLM領域并不是什么新鮮事最常見的此類操作就是模型蒸餾(Model Distillation),這也是深度學習領域的一種常見的訓練方法。

通常用于將一個大型、復雜的模型(稱為“教師模型”)的知識轉移到一個更小、更簡單的模型(稱為“學生模型”)中這個過程的目標是讓小模型模仿大模型的行為,以便它可以在保持較低計算復雜性的同時,接近或達到大模型的性能。

“模型蒸餾的教師模型,也應該來自于自研模型但今天研發(fā)大模型的人普遍急功近利,很多人也就顧不了這么多了”一位AI研發(fā)工程師告訴虎嗅,業(yè)內利用別人的模型進行基礎開發(fā)的不在少數(shù),有些公司也會公開承認自己的模型是基于某個開源模型蒸餾而來。

除了字節(jié)跳動之外,另一家之名公司,在OpenAI強大的內容“輸出”之下,也爆出了數(shù)據(jù)“套殼”的新聞12月9日,馬斯克新建的x.AI公司推出的LLM產品Grok,被網(wǎng)友質疑直接“套殼”了ChatGPT一位X用戶在向Grok提問的過程中,得到的回答居然是:“我無法完成您的請求,因為它違反了OpenAI的用例政策。

網(wǎng)友發(fā)布X稱:Grok說自己不能“違反OpenAI的用例政策”對此,xAI的工程師Igor Babuschkin在這條推文下面解釋說,這是因為ChatGPT的輸出充斥網(wǎng)絡,導致Grok很難不受到ChatGPT的影響,而輸出與OpenAI或ChatGPT相關的信息。

他表示:“這個問題非常罕見,我們已經(jīng)意識到這一點,并將確保未來的Grok版本不會出現(xiàn)類似的問題Grok的開發(fā)沒有使用任何OpenAI代碼”

X工程師對“套殼”問題的回復由于Grok與ChatGPT一樣可以鏈接網(wǎng)絡,且它可以直接檢索X(原Twitter)上的內容,所以輸出與ChatGPT相關的內容對于Grok來說,也不是完全不合理而對于這種情況,AI業(yè)界也并沒有引起太大的反應。

前述研發(fā)人員對虎嗅表示,不管是直接還是間接的,大家都不可避免地要把行業(yè)第一作為參考如今的一些公司,不只是把ChatGPT的輸出內容用于訓練,甚至有人把這些內容用在不太合規(guī)的商業(yè)用途中,“有的短視頻或是虛擬人服務公司,就把使用GPT-4輸出的內容做腳本當成自己的賣點呢。

”不過,使用AI生成的數(shù)據(jù)訓練自己的模型對模型的迭代進化真的有好處嗎?在數(shù)據(jù)迭代方面,確實曾有人提出過擔憂,認為:未來AI生成內容勢必會充斥網(wǎng)絡,大模型迭代的訓練數(shù)據(jù)將成為一條難以再進化的“銜尾蛇”這是否就意味著,后來的AI大模型就再也難以追趕ChatGPT了呢?

對此,一些學者認為并不會出現(xiàn)這種情況,AI輸出的數(shù)據(jù)在迭代過程中,一樣可以促進后來的AI提升能力,對AI的促進作用甚至不弱于人類輸出的數(shù)據(jù),甚至會出現(xiàn)“教會徒弟,餓死師傅“的情況IDEA研究院高級算法工程師王昊認為:在大型語言模型上,用自己生成的數(shù)據(jù)訓練自己并非沒有意義。

首先借助這種方式,人類能從根本上解決大模型的數(shù)據(jù)危機問題此外,人們不僅用這種方式教會大模型解決各種問題,還開始嘗試以類似的方式使大模型自我反思,自我驗證和自我提升,這是未來能夠讓模型變得更加智能的重要途徑。

字節(jié)跳動被懷疑,低調是原罪?自ChatGPT問世以來以后,國內百模大戰(zhàn)熱火朝天,但是字節(jié)跳動似乎并沒有深陷其中過于低調的大模型研發(fā),也招來了很多外界的“揣測”自3月以來,字節(jié)跳動在AI大模型方面正式發(fā)布的重大新聞并不多,6月發(fā)布的大模型服務平臺火山方舟;8月宣布自研的大模型“云雀”通過了有關部門備案,并開啟了基于云雀大模型的AI對話產品“豆包”的對外測試。

近期,字節(jié)跳動在AI方面的大動作似乎只有11月宣布成立的新AI部門Flow,以及這次的套用數(shù)據(jù)事件了對于字節(jié)跳動在大語言模型熱潮中,發(fā)聲甚少的原因,很多業(yè)內人士認為,“低調”才是C端業(yè)務在大語言模型趨勢下的正確邏輯。

縱觀國內互聯(lián)網(wǎng)巨頭,騰訊、字節(jié)、美團等專注C端業(yè)務的部門,在這波大語言模型熱潮中,多數(shù)都保持著謹慎的態(tài)度“LLM最好的應用場景應該在C端,但關注C端的公司,多數(shù)不會大張旗鼓的研發(fā)”某C端互聯(lián)網(wǎng)巨頭的AI大模型專家對虎嗅表示,對于互聯(lián)網(wǎng)公司來說,B端業(yè)務通常提供更直接、更可預測的收入來源。

所以在“百模大戰(zhàn)”中,B端市場會更積極地推出產品,宣傳業(yè)務如字節(jié)跳動這樣的C端互聯(lián)網(wǎng)巨頭,要研發(fā)、推廣一款大語言模型應用,勢必要考慮很多問題,其中最重要的三個因素包括:商業(yè)模式與收益預期,技術成熟度與用戶體驗,隱私與合規(guī)。

首先對于專注C端消費者的公司和業(yè)務來說,要將大語言模型落地到應用中,勢必需要更長的時間來開發(fā)市場、教育用戶,并且盈利模式相當不明確在技術成熟度與用戶體驗方面,大語言模型在2023年雖然取得了長足的進展,但在理解復雜、多變的消費者需求方面仍有局限。

C端互聯(lián)網(wǎng)公司更傾向于在技術成熟度更高、能夠提供一致且高質量用戶體驗的時候,才大規(guī)模發(fā)展產品落地在隱私和合規(guī)性方面,雖然目前國內有關部門已經(jīng)對公眾開放了多款AI大模型應用但在C端市場上,還會涉及到隱私和數(shù)據(jù)保護問題,這在當下的國內市場亦算是一個重大“雷區(qū)”。

很多普通用戶都在擔憂:大模型會不會收集我的隱私數(shù)據(jù)?應用了AI之后,大公司對我的“監(jiān)視”是不是更精準了?除此之外,在商業(yè)上,國內互聯(lián)網(wǎng)公司還會考慮到“后發(fā)優(yōu)勢”的問題中國互聯(lián)網(wǎng)市場競爭相當激烈,“百模大戰(zhàn)”尚未結束,如果能夠等待競爭對手先出手,。

觀其效果而后動,或者在市場中尋找差異化AI產品進行收購,則更可能在未來的市場競爭中占據(jù)優(yōu)勢。正在改變與想要改變世界的人,都在 虎嗅APP舉報/反饋