《完美世界》txt全集,小说网,辰东

安徽網站建設需要多少錢（英語語料庫的收集與整理方法）英語語料庫的收集與整理是什么，

要學好英語，詞匯是基礎，詞匯量的大小和掌握程度是一門語言的基石而任何知識的學習，都包含學習材料和學習方法這是兩個最核心因素當然，學習工具對于提高學習的效率也起了非常重要的作用這篇文章主要介紹學習材料關于英語詞匯的學習材料。

一、英文語料庫介紹顧名思義，語料庫就是集合了英語書面和口語等各類英文表述方式的語言材料集合。它收集的英語詞匯包羅萬象，亙古棉今。是英文詞匯的一個大全集合。下面是目前主流的一些語料庫列表：

圖片來源：billions of words of data: free online access下面主要介紹有：GBC，BNC, COCA 這三個語料庫GBC, Google Books Corpus，官網：。

https://googlebooks.byu.edu/，擁有 1550 億美國英語詞匯。

BNC - British National Corpus，是有同等影響力的權威語料庫，只不過它的選詞是來自于英國英語，主要取自 1980 年的各類英文材料COHA, Corpus of Historical American English。

COCA, Corpus os Contenporary American EnglishCOHA/COCA 作為美國當代英語語料庫，于 2008年 2月 20日推出，起初包含的詞匯量在 3.2 億左右，并且每年以 2000 萬的速度增加，2017 年已達到 4.5 億甚至更多。

二、N-GRAM 連詞文法模型N-GRAM 是一種連詞分類法（模型），它表示一個詞組或句子中連續(xù)出現的幾個詞在人工智能領域，可以通過馬爾可夫的概率模型來預測后續(xù)出現這些詞的概率根據連詞的數量，可以細分為 unigram, bigram ( or digram), trigram, four-gram, five-gram, etc.。

Google 中的 N-GRAMS 模型采用的選詞原則是：由連續(xù)的三到四個詞組成的一串詞（string，可以是句子也可以是一個句子的一部分）在語料庫出現的次數超過 40 次這個原則又叫 “40 Token Threshold”。

這樣的好處就是，即使 GBC 的詞匯量是 COCA 的 400 倍，但是它們選出來的 N-GRAMS 數量則幾乎一致下面通過幾個例子來理解 Google 的 N-GRAMS 模型我們搜索 [j*] groan（注：這里前面的 j* 表示可以搭配的形容詞），可以搜到如下的結果：。

下面是 Google 官網給出的 Google N-GRAMS 和 COHA N-GRAMS 的對比，

解釋下 tokens 和 types 的涵義，前者表示 token 出現的總次數，后者表示詞組或句子類型的的數量（the number of unique string）可以看到，COHA N-GRAMS 給出的結果中，types 數量要比 Google N-GRAMS 的數量更多。

簡單來說就是，在 Google 詞匯集中，heavy groan 出現了很多次，但是 low groan + heavy groan hollow groan + muffled groan + ... 加在一起出現的種類的數量沒有 COHA 集合中出現的多。

這種現象在更長的詞組或句子中更明顯，比如長度增加到 4 grams 或 5 grams，如圖：

在 2 中，COHA 給出的 types 遠遠超過 Google 的數量，達到 6 倍之多可見，Google N-GRAMS 使用的 “40-token-threshold” 這個取詞原則也有一些弊端三、其他語料庫：

相比上述語料庫，下面幾個語料庫詞匯量較小，只有百萬級Brown Corpus 100 萬詞匯美國英語，1961 年全年，選詞來自 15 個類別LOB Corpus - Lancaster-Oslo-Bergen Corpus，100萬詞匯。

英國英語，與 Brown Corpus 選詞方式類似，1970 年編撰ARCHER, A Representative Corpus of Historical English Registers（http://www.

manchester.ac.uk/archer/），約 100 多萬詞匯，包含美國英語和英國英語，選詞來自 1600-1999 年期間總結：我們可以看到，GBC 的詞匯數量是宇宙級的，是 COCA 體量的 400 倍，它包含古今幾乎所有出現過的詞匯。

從這個詞匯集里面，我們可以了解幾乎所有詞根的變遷史當然，這個天量的語料庫對第二語言的學習者而言意義并不大，因為有些詞在整個歷史中僅出現過 1 次GBC 官方自己甚至都沒法確認這些詞是不是完全是拼寫錯誤造成，但是，它也指出，通過這個體量的詞匯集與其它流行語料庫比如 COCA 的對比，可以排除許多出現頻率非常地的詞。

也就是通過對比比較，可以更加清晰詞匯的主流使用范圍四、其它詞庫（SCOWL）SCOWL，Spell Checker Oriented Word Lists 這個詞庫主要是基于主流的英語詞典制作，主要是用來作為各種英文輸入工具的拼寫檢查的。

因此它的詞庫量相對上述動則幾百萬甚至上億的語料庫要小很多（詞典大多是在 20 萬左右的詞匯數量）但是，相對的，它也更加精細和準確，取詞更加考究和流行非常適合母語為非英語的人來進行學習和使用之所以介紹這個詞庫，主要是因為它可以作為輔助詞庫來幫助我們更好的理解詞頻和詞匯分類，結合其它詞頻表，我們可以設計出更加合理的詞匯表來進行學習。

SCOWL 提供了幾個制作好的詞庫供用戶免費使用，其中比較流行的是 12Dict 詞庫以及它的一些衍生版本，下面簡單介紹一下它們12Dict 來源于 n-Dict 項目，目的是以美式英語（American-English）為基礎創(chuàng)建一個核心詞匯列表。

（其中，n 是一個變量，表示來源的詞庫（權威詞典）數量，最終被確定為 12）這 12 個詞典由 8 本 ESL詞典和 4 本桌面詞典組成最小的包含 20000 條詞目，最大的包含 46000 條詞目6of12 和 2of12

6of12 是作者從 12 本中選擇了其中 6 本來生成的詞匯列表，這個列表大約包含 32000 條單詞和短語2of12 是作者從 12 本中選擇其中 2 本來生成的詞匯列表，它包含了約 41000 條詞目。

它的特點是：剔除了多詞詞組（multiword phrases），專有名詞(proper names）和縮略語（abbreviations）關于這兩個列表的詳細介紹請查看 readme 文件，具體鏈接是：

Release 4 of the 12dicts word lists?wordlist.aspell.net/12dicts-readme-r4/Lemmatize 把單詞按“同源異形”進行歸類，具體意思就是：把（文中的詞）按屈折變化形式（或異體形式）進行歸類。

比如："take" : ["taken", "taking", "took", "takes"] 這些單詞是“同源異形” 的，可以歸為同一類，并且只用一個單詞來表示在制作 list 時的具體做法就是：把文本文件處理成一個單詞序列，對其中每一個單詞，查找字典得到本體，加入到一個 dictionary 里，條目形式是：word: frequency ，單詞每出現一次，frequency 加 1。

12Dict Release 5 增加了 2+2lemma 和 2+2gfreq 兩個 List。按照上述方式分類計算詞頻之后，每個文件包含的詞匯條目約 5 萬左右。

五、核心詞頻庫這一部分是我要介紹的重點，因為，這一部分列出的幾個詞庫收集的詞匯量更加核心與精簡，因此極具學習價值（1）COCA 詞頻COCA 是目前最具權威、流行最廣，也最具實用價值的一份英語詞匯學習庫（。

billions of words of data: free online access）我們來看一下它提供哪些東西：一、Wordlist + genre frequency 詞匯表這份詞匯表是依據 spoken, fiction, popular magazine, newspaper, academic 這 5 大類別進行分頻統(tǒng)計的，其中每個類別還包含子類（共約 40 個類別）。

COCA 最終依據這些分類進行提供了 3 個量級的詞匯表，分別包含 5000，20000 和 60000 個單詞二、Collocates 詞組搭配不僅如此提供詞匯表，COCA 還提供了總計約 480 萬個詞組搭配（Collocates），詳見。

based on 450 million word COCA corpus特別地，為使用頻率最高的前兩到三萬個詞匯每個均提供了 200 到 300 個詞組搭配，極具學習價值三、N-GRAMS N-GRAMS 體現的是某個單詞最常與哪些詞（前后）搭配在一起，比如根據統(tǒng)計，free 最經常與 of the 放在一起，而 takes 則最常與 place in 或 care of 放在一起使用。

我們可以直接在 https://www.ngrams.info/ 中查看詳細使用方法（2）柯林斯五星詞頻”（含 14600 詞）柯林斯五星詞頻來自于“柯林斯高階雙解學習詞典”，即 Collins COBUILD Advanced Learners English-Chinese Dictionary。

這本詞典對每個單詞都進行了標記，從 0 到 5 共六個星級別。

五星 680 詞四星 1040 詞（累計 1720 詞）三星 1580 詞（累計3300詞）二星 3200 詞（累計6500詞）一星 8100 詞（累計14600詞）0 星 22480 詞（3）“麥克米倫 7500 高頻”

取詞來源于“麥克米倫高階英漢雙解詞典”，即 Macmillan English Dictionary for Advanced Learners這本詞典收錄了大約 10 萬左右的詞匯量，并對這些詞匯做了分級處理。

屬于7500核心詞匯的統(tǒng)一以紅色字體呈現，并繼續(xù)分為三個等級，每個級別 2500 個詞：一級是最最常用的詞，標注三個非常醒目的星號 ★★★；二級常用詞標注兩個紅星 ★★；三級標注一個紅星 ★雖然本詞典并沒有把它們作為一個單獨的詞匯表給出，但是有英語愛好者把這部分星級詞匯提取出來制作了單獨的詞匯表，我們可以根據需要去搜索并下載這個詞表進行學習。

（4）專門類別的報刊期刊詞頻“紐約時報高頻詞匯”“經濟學人高頻詞匯”它們都是由民間英語愛好者對歷年來的英文期刊文章進行統(tǒng)計而總結的出的詞頻詞匯集，收詞數也在 2 萬左右對于這類詞頻詞匯集，有興趣的同學可以參考下面兩篇文章：。

六、應試詞表這里列出的應試詞表大多是對應相應的英文考試的，它們包括：中考，高考，四級，六級，考研，專四，專八，托福，雅思，GMAT/GRE 一共 10 個類別的分類詞匯所謂的應試詞表，其實也是按照一定規(guī)則來進行提取和分類的。

比如最高階的 GRE 詞匯表，其取詞主要就來源于比較學術類的文章及資料，如果不是應試需要，通常情況下并不需要對這些詞匯進行專門記憶七、詞典介紹完了詞匯（頻）集，最后有必要來介紹一下主流的六大英語詞典這些詞典都是雙解（包括英漢雙解和英英雙解）、學習型的詞典，非常適與非英語母語的人使用和學習。

它們最大的特點就是既可以作為詞典進行翻查釋義，又可以進行學習這六大詞典主要是：[OALD] Oxford Advanced Learners Dictionary 牛津高階英漢雙解詞典[LDOCE] Longman Dictionary of Contemporary English 朗文當代高級英語辭典（英英·英漢雙解）。

[MWALED] Merriam-Webster Advanced Learners English Dictionary 韋氏高階英漢雙解詞典[CCALD] Collins COBUILD Advanced Learners Dictionary 柯林斯 COBUILD 高階英漢雙解學習詞典

[CALD] Cambridge Advanced Learners Dictionary 劍橋高階英漢雙解詞典[MED] Macmillan English Dictionary for Advanced Learners 麥克米倫高階英漢雙解詞典

在如今的網絡時代，很多人都喜歡利用手機來進行英語學習，這些詞典也都有移動端 App，不過多數是收費的很多英語學習愛好者，對這些詞庫進行了提取，制作了 .mdx 離線詞庫文件，可以供我們離線下載使用通常，我們會用到一些第三方詞典軟件，比如（Mdict，歐陸，Goldendict 等），他們可以支持導入各種離線詞庫。

比如我在歐陸移動端的 App 中導入各種離線詞庫后，如下：

單詞的查詢效果如下：

可見，釋義非常詳盡如果不是非詞典研究者，這六本詞典足以應付幾乎所有英語學習場景在我看來，選用其中任意 2 到 3 本作為主要詞典來使用就已經足夠如果你對我的文章感興趣，歡迎留言或者關注我的專欄微信公眾號（ID：知輝）

安徽網站建設需要多少錢（英語語料庫的收集與整理方法）英語語料庫的收集與整理是什么，

最新文章

分類目錄