玄幻小说排行榜,《完美世界》txt全集

太原企業(yè)網(wǎng)站建設500元全包（字節(jié)ohayoo）字節(jié)kite，

出品｜虎嗅科技組作者｜齊健編輯｜王一鵬頭圖｜視覺中國在大模型熱潮中，一直保持低調的字節(jié)跳動，日前也被曝出了“套殼“的瓜當?shù)貢r間12月15日，外媒The Verge曝出字節(jié)跳動正在秘密研發(fā)一個被稱為“種子計劃”（Project Seed）的AI大模型項目。

據(jù)稱該項目在訓練和評估模型等多個研發(fā)階段調用了OpenAI的應用程序接口（API），并使用ChatGPT輸出的數(shù)據(jù)進行模型訓練在API調用和對輸出內容的使用方面，OpenAI的使用協(xié)議明確規(guī)定了：禁止使用輸出開發(fā)競爭模型。

在2023年11月14日更新的使用條款中還規(guī)定了：不得嘗試或協(xié)助任何人進行逆向工程、反編譯或發(fā)現(xiàn)OpenAI服務的源代碼或底層組件，包括我們的模型、算法或系統(tǒng)（除非適用法律禁止此限制）不得自動或以編程方式提取數(shù)據(jù)或輸出（定義如下）。

不得表示輸出是人類生成的，但事實并非如此。OpenAI的使用條款中對于違規(guī)用戶的處理辦法是：在提前通知的情況下，隨時終止服務。

OpenAI服務條款中禁止的事項而目前，隸屬于字節(jié)跳動公司名下的部分GPT使用權限均已被OpenAI封禁OpenAI發(fā)言人Niko Felix在一份聲明中表示：“所有 API 客戶必須遵守我們的使用政策，以確保我們的技術用于正確用途。

雖然字節(jié)跳動對OpenAI的API使用量很少，但在進一步調查期間，我們已暫停了他們的帳戶，如果我們發(fā)現(xiàn)他們的使用不遵守這些政策，我們將要求他們進行必要的更改或終止他們的帳戶”真的“套”了嗎？首先可以確定的是，字節(jié)跳動肯定是在業(yè)務當中使用了OpenAI的API。

The Verge的報道中提到，字節(jié)跳動發(fā)言人Jodi Seth表示，GPT生成的數(shù)據(jù)在 Project Seed 開發(fā)的早期就用于注釋模型，并在 2019 年中期被從字節(jié)跳動的訓練數(shù)據(jù)中刪除不過，Jodi Seth在一份聲明中也表示，。

在字節(jié)的海外市場中的一些服務使用了OpenAI的API但在國內的“豆包”，使用的是字節(jié)自主開發(fā)的“云雀”模型據(jù)一些與字節(jié)跳動海外業(yè)務相關的人士表示，字節(jié)跳動的海外業(yè)務使用的是OpenAI在微軟Azure上的云服務Azure OpenAI。

調用OpenAI的API，對于公司和個人來說都是很平常的事情并不能因此就說大模型研發(fā)公司調用了OpenAI的API是抄襲或是套用數(shù)據(jù)不過，The Verge在報道中提到了字節(jié)跳動的一些內部文件可以證明字節(jié)跳動正在使用ChatGPT輸出的數(shù)據(jù)進行模型訓練，。

“有員工在飛書上討論了如何‘數(shù)據(jù)脫敏’以掩蓋調用OpenAI的API進行模型訓練的行為”虎嗅向一些與字節(jié)跳動AI研發(fā)團隊有關的人士，詢問了字節(jié)跳動是否使用了ChatGPT輸出的數(shù)據(jù)訓練模型，得到的回復均是“不方便評價”。

一位火山引擎團隊人士向虎嗅透露，字節(jié)AI研發(fā)團隊在模型訓練上投入的算力非?？捎^，“不管數(shù)據(jù)來源如何，在大語言模型訓練方面，AI團隊確實是在刻苦研發(fā)的”此外，The Verge的報道中還提到”他們（字節(jié)）說要確保一切都合法，只是不想被抓。

“多位工程大模型從業(yè)者對虎嗅表示，這種觀點相當片面，甚至有些不懷好意“面向公眾開放的AI大模型，最重要的就是內容安全問題，不管訓練過程中是否用過OpenAI的數(shù)據(jù)，都不可能直接把這些輸出這些內容”一位參與某國內AI大模型內容審核工作的人士向虎嗅表示，目前國內AI大模型對于數(shù)據(jù)合規(guī)、安全性的考慮相當嚴格，甚至是模型產品研發(fā)過程中的首要考量。

有趣的是，虎嗅就訓練數(shù)據(jù)問題向字節(jié)跳動的語言模型產品“豆包”提問了幾輪。得到的回復均是沒有采用過OpenAI的技術或數(shù)據(jù)。

字節(jié)跳動大模型產品“豆包”的問答截圖數(shù)據(jù)“套殼”很普遍事實上，在訓練過程中用到ChatGPT輸出的內容，雖然有違OpenAI的使用條款，但這在LLM領域并不是什么新鮮事最常見的此類操作就是模型蒸餾（Model Distillation），這也是深度學習領域的一種常見的訓練方法。

通常用于將一個大型、復雜的模型（稱為“教師模型”）的知識轉移到一個更小、更簡單的模型（稱為“學生模型”）中這個過程的目標是讓小模型模仿大模型的行為，以便它可以在保持較低計算復雜性的同時，接近或達到大模型的性能。

“模型蒸餾的教師模型，也應該來自于自研模型但今天研發(fā)大模型的人普遍急功近利，很多人也就顧不了這么多了”一位AI研發(fā)工程師告訴虎嗅，業(yè)內利用別人的模型進行基礎開發(fā)的不在少數(shù)，有些公司也會公開承認自己的模型是基于某個開源模型蒸餾而來。

除了字節(jié)跳動之外，另一家之名公司，在OpenAI強大的內容“輸出”之下，也爆出了數(shù)據(jù)“套殼”的新聞12月9日，馬斯克新建的x.AI公司推出的LLM產品Grok，被網(wǎng)友質疑直接“套殼”了ChatGPT一位X用戶在向Grok提問的過程中，得到的回答居然是：“我無法完成您的請求，因為它違反了OpenAI的用例政策。

”

網(wǎng)友發(fā)布X稱：Grok說自己不能“違反OpenAI的用例政策”對此，xAI的工程師Igor Babuschkin在這條推文下面解釋說，這是因為ChatGPT的輸出充斥網(wǎng)絡，導致Grok很難不受到ChatGPT的影響，而輸出與OpenAI或ChatGPT相關的信息。

他表示：“這個問題非常罕見，我們已經(jīng)意識到這一點，并將確保未來的Grok版本不會出現(xiàn)類似的問題Grok的開發(fā)沒有使用任何OpenAI代碼”

X工程師對“套殼”問題的回復由于Grok與ChatGPT一樣可以鏈接網(wǎng)絡，且它可以直接檢索X（原Twitter）上的內容，所以輸出與ChatGPT相關的內容對于Grok來說，也不是完全不合理而對于這種情況，AI業(yè)界也并沒有引起太大的反應。

前述研發(fā)人員對虎嗅表示，不管是直接還是間接的，大家都不可避免地要把行業(yè)第一作為參考如今的一些公司，不只是把ChatGPT的輸出內容用于訓練，甚至有人把這些內容用在不太合規(guī)的商業(yè)用途中，“有的短視頻或是虛擬人服務公司，就把使用GPT-4輸出的內容做腳本當成自己的賣點呢。

”不過，使用AI生成的數(shù)據(jù)訓練自己的模型對模型的迭代進化真的有好處嗎？在數(shù)據(jù)迭代方面，確實曾有人提出過擔憂，認為：未來AI生成內容勢必會充斥網(wǎng)絡，大模型迭代的訓練數(shù)據(jù)將成為一條難以再進化的“銜尾蛇”這是否就意味著，后來的AI大模型就再也難以追趕ChatGPT了呢？

對此，一些學者認為并不會出現(xiàn)這種情況，AI輸出的數(shù)據(jù)在迭代過程中，一樣可以促進后來的AI提升能力，對AI的促進作用甚至不弱于人類輸出的數(shù)據(jù)，甚至會出現(xiàn)“教會徒弟，餓死師傅“的情況IDEA研究院高級算法工程師王昊認為：在大型語言模型上，用自己生成的數(shù)據(jù)訓練自己并非沒有意義。

首先借助這種方式，人類能從根本上解決大模型的數(shù)據(jù)危機問題此外，人們不僅用這種方式教會大模型解決各種問題，還開始嘗試以類似的方式使大模型自我反思，自我驗證和自我提升，這是未來能夠讓模型變得更加智能的重要途徑。

字節(jié)跳動被懷疑，低調是原罪？自ChatGPT問世以來以后，國內百模大戰(zhàn)熱火朝天，但是字節(jié)跳動似乎并沒有深陷其中過于低調的大模型研發(fā)，也招來了很多外界的“揣測”自3月以來，字節(jié)跳動在AI大模型方面正式發(fā)布的重大新聞并不多，6月發(fā)布的大模型服務平臺火山方舟；8月宣布自研的大模型“云雀”通過了有關部門備案，并開啟了基于云雀大模型的AI對話產品“豆包”的對外測試。

近期，字節(jié)跳動在AI方面的大動作似乎只有11月宣布成立的新AI部門Flow，以及這次的套用數(shù)據(jù)事件了對于字節(jié)跳動在大語言模型熱潮中，發(fā)聲甚少的原因，很多業(yè)內人士認為，“低調”才是C端業(yè)務在大語言模型趨勢下的正確邏輯。

縱觀國內互聯(lián)網(wǎng)巨頭，騰訊、字節(jié)、美團等專注C端業(yè)務的部門，在這波大語言模型熱潮中，多數(shù)都保持著謹慎的態(tài)度“LLM最好的應用場景應該在C端，但關注C端的公司，多數(shù)不會大張旗鼓的研發(fā)”某C端互聯(lián)網(wǎng)巨頭的AI大模型專家對虎嗅表示，對于互聯(lián)網(wǎng)公司來說，B端業(yè)務通常提供更直接、更可預測的收入來源。

所以在“百模大戰(zhàn)”中，B端市場會更積極地推出產品，宣傳業(yè)務如字節(jié)跳動這樣的C端互聯(lián)網(wǎng)巨頭，要研發(fā)、推廣一款大語言模型應用，勢必要考慮很多問題，其中最重要的三個因素包括：商業(yè)模式與收益預期，技術成熟度與用戶體驗，隱私與合規(guī)。

首先對于專注C端消費者的公司和業(yè)務來說，要將大語言模型落地到應用中，勢必需要更長的時間來開發(fā)市場、教育用戶，并且盈利模式相當不明確在技術成熟度與用戶體驗方面，大語言模型在2023年雖然取得了長足的進展，但在理解復雜、多變的消費者需求方面仍有局限。

C端互聯(lián)網(wǎng)公司更傾向于在技術成熟度更高、能夠提供一致且高質量用戶體驗的時候，才大規(guī)模發(fā)展產品落地在隱私和合規(guī)性方面，雖然目前國內有關部門已經(jīng)對公眾開放了多款AI大模型應用但在C端市場上，還會涉及到隱私和數(shù)據(jù)保護問題，這在當下的國內市場亦算是一個重大“雷區(qū)”。

很多普通用戶都在擔憂：大模型會不會收集我的隱私數(shù)據(jù)？應用了AI之后，大公司對我的“監(jiān)視”是不是更精準了？除此之外，在商業(yè)上，國內互聯(lián)網(wǎng)公司還會考慮到“后發(fā)優(yōu)勢”的問題中國互聯(lián)網(wǎng)市場競爭相當激烈，“百模大戰(zhàn)”尚未結束，如果能夠等待競爭對手先出手，。

觀其效果而后動，或者在市場中尋找差異化AI產品進行收購，則更可能在未來的市場競爭中占據(jù)優(yōu)勢。正在改變與想要改變世界的人，都在虎嗅APP舉報/反饋

太原企業(yè)網(wǎng)站建設500元全包（字節(jié)ohayoo）字節(jié)kite，

最新文章

分類目錄