国产玉足榨精视频在线_亚洲日韩国产第一区_男人都懂的网站在线观看免费_久久91亞洲精品中文字幕奶水_按摩房技师激情国产精品_无人在线观看视频在线观看_年轻女教师2免费播放_欧洲熟妇色xxⅩx欧美老妇多毛_91爱视频成人在线第一页_欧美日韩中文字幕成人网

日志樣式

邯鄲網(wǎng)站建設(shè)一條龍全包(網(wǎng)頁如何防止抓包)如何防止網(wǎng)頁被篡改,

原標(biāo)題:如何避免網(wǎng)頁數(shù)據(jù)被ChatGPT抓去訓(xùn)練?

本文想回答如下問題:互聯(lián)網(wǎng)的公開頁面數(shù)據(jù)是否可以隨意抓取? ChatGPT是否可以抓取個(gè)人博文、簡介和文章?是否有辦法限制ChatGPT用這些數(shù)據(jù)進(jìn)行大模型訓(xùn)練?ChatGPT的數(shù)據(jù)源 在當(dāng)今大數(shù)據(jù)驅(qū)動(dòng)的人工智能時(shí)代,ChatGPT也離不開大數(shù)據(jù)來訓(xùn)練它的模型。

上一篇文章“從大數(shù)據(jù)的角度看ChatGPT ”提到ChatGPT的主要訓(xùn)練數(shù)據(jù)來自互聯(lián)網(wǎng),具體包括:Wikipedia、電子書、網(wǎng)站內(nèi)容(Common Crawl)其中,Common Crawl是非盈利機(jī)構(gòu)commoncrawl采集的數(shù)據(jù)集,它抓取的互聯(lián)網(wǎng)數(shù)據(jù)從2008年至今不同語言的互聯(lián)網(wǎng)頁面。

當(dāng)然其中不可避免包含諸如政府公文、企業(yè)公告、法律法規(guī)等重要信息,以及我們個(gè)人在網(wǎng)上公開的博文、論壇帖子、個(gè)人簡介和自己寫的科普文章互聯(lián)網(wǎng)公開頁面是否可以隨意抓?。炕ヂ?lián)網(wǎng)誕生及發(fā)展中的一系列技術(shù),如Web、P2P、EMail等無不蘊(yùn)含著對等、協(xié)作、開放、共享、去中心、自組織等精神,也正是這些精神才讓互聯(lián)網(wǎng)保持永久的生命力。

從這點(diǎn)看,包括搜索引擎在內(nèi)的各類爬蟲抓取公開信息是有依據(jù)的但是隨著數(shù)據(jù)成為石油、成為新的生產(chǎn)要素之后,人們意識到數(shù)據(jù)的價(jià)值,情況就有所變化數(shù)據(jù)生產(chǎn)者、所有者、處理者等數(shù)據(jù)交易中的細(xì)分概念的提出更使得互聯(lián)網(wǎng)公開數(shù)據(jù)的采集越來越受到限制。

目前大都認(rèn)為 互聯(lián)網(wǎng)的公開頁面數(shù)據(jù)不可以隨意抓取ChatGPT是否可以抓取博文、個(gè)人簡介和文章?ChatGPT是個(gè)新東西,但是這個(gè)問題是個(gè)老問題既然如此,我們就可以看看現(xiàn)有的答案是什么爬蟲開始于搜索引擎,經(jīng)過30年的發(fā)展仍然存在并不斷壯大,也證明爬蟲采集技術(shù)的生命力。

搜索引擎每天抓取了大量的互聯(lián)網(wǎng)頁面網(wǎng)站為什么要讓Baidu爬蟲抓數(shù)據(jù),主要在于利用搜索引擎拓展頁面的傳播范圍和影響力

比如,高校教師主頁收錄到搜索引擎后,考研學(xué)生可以快速找到導(dǎo)師,候選人多了,導(dǎo)師也可以有更多的選擇空間這就是所謂的“ 回饋”,博弈論中的效用payoff,使得被采集者和搜索引擎存在一種 平衡,這也是互聯(lián)網(wǎng)精神的之一。

然而,ChatGPT抓取了大量公開頁面,并沒有給予網(wǎng)站或個(gè)人任何payoff,還要限制我們訪問,或付費(fèi)訪問,還可能導(dǎo)致個(gè)人信息被 濫用、 泄露,甚至可能被利用來 造謠,還會(huì)讓我們失去工作因此, 阻止ChatGPT 。

抓取我們的博文、個(gè)人簡介和科普文章等公開頁面進(jìn)行模型訓(xùn)練也是情有可原的是否有辦法限制ChatGPT用這些數(shù)據(jù)進(jìn)行大模型訓(xùn)練?辦法當(dāng)然是有的,行業(yè)規(guī)范 Robots為開放Web頁面采集權(quán)限提供了定義方式,ChatGPT的瀏覽器插件宣稱尊重網(wǎng)站的Robots,因此只要在robots.txt中加入下面兩行公告就可以限制它抓取。

User-Agent: ChatGPT-UserDisallow: /ChatGPT的訓(xùn)練數(shù)據(jù)來自CommonCrawl,而該爬蟲進(jìn)行了更大范圍和持續(xù)的采集,只有限制該爬蟲才能避免新頁面被采集,方法是:

User-Agent: CCBotDisallow: /但Robots僅僅只是公告,爬蟲不一定遵守同時(shí),也許有的人會(huì)栽贓給ChatGPT,因此在判斷是否真的CCBot時(shí),還需要根據(jù)IP來識別,因?yàn)镃ommonCrawl爬蟲從Amazon AWS發(fā)起。

但這只針對新的頁面數(shù)據(jù)有效,已經(jīng)被抓走的數(shù)據(jù)就無法通過這種方式限制了因此要限制的話,就得馬上行動(dòng)起來掃碼優(yōu)惠購書返回搜狐,查看更多責(zé)任編輯: