关于语料库的三点基本认识:语料库中存放的是在语言的实际使用中真实出现过的语言材料;语料库是以电子计算机为载体承载语言知识的基础资源;真实语料需要经过加工(分析和处理),才能成为有用的资源。
misc. language database
语料库 text corpus ; [计] Corpus ; The Bank of English ; corpora
英国国家语料库 British National Corpus ; the BNC
语料库语言学 [计] Corpus Linguistics ; An Introduction to Corpus Linguistics ; Douglas Biber
布朗语料库 Brown Corpus ; Brown corpora
国际英语语料库 International Corpus of English
美国国家语料库 American National Corpus
美国当代英语语料库 Corpus of Contemporary American English ; COCA
英语语料库 the Bank of English ; COBuILD ; English Corpora
平行语料库 parallel corpus ; Parallel corpora ; GEPCOLT
基于语料库 corpus-based ; Corpus-Bautomotive service engineersd
·2,447,543篇论文数据,部分数据来源于NoteExpress
通过大型语料库(海量文本)来检查是个好方法。
生成语料库的原因之一是规范化文本并删除任何不相关的内容。
One of the reasons for generating a corpus is to normalize text and remove anything that isn't relevant.
由于不关心单词的大小写,所以您从内容创建的语料库全是小写的。
As you do not care about what case a word is in, you create the corpus out of the content, which is all lowercase.
应用推荐