个中,英文语篇连接资本包含宾州语篇树库(Penn Discourse Treebank)、修辞构造树库(Rhetorical Structure Treebank)、语篇连接图库(Discourse GraphBank),中文语篇连接资本包含中文命题库(Chinese...
基于16个网页-相关网页
46 47 树库(Treebanks) • 英语Penn 树库: – 测试句法分析的标准语料库 – 包含1.2M单词的文本 – 来自华尔街日报(Wall Street Journal, WSJ) • 在约...
基于12个网页-相关网页
...助开源工具CRFChunk[z53进行组块分析,而对 于中文专利语料,我们基于CRF模型,借助清华中 文树库(Tsinghua Chinese Treebank)乜6]iJij练了一 个中文组块分析器,并在清华中文树库上检验了该 分析器的效果,如表1所示。
基于8个网页-相关网页
It is laborious to collect the corpus with chunk tags, and thus its acquisition is mostly carried out through the transformation of the existing treebank.
同时组块库的获取和收集也是一项迫切的任务,由于不易直接获取具有组块标注的语料,当前大多组块语料库是通过转化现有树库获得。
参考来源 - 汉语组块计算的若干研究The Treebank has size of 1000 thousand Chinese characters.
该树库目前已有100万汉字的规模。
参考来源 - 汉语复句关系自动判定研究·2,447,543篇论文数据,部分数据来源于NoteExpress
我怎样才能培养NLTK整个宾州树库语料?
系统使用基于可扩展标记语言(XML)的文档作为双语对齐树库的存储结构和表示方法。
The EBMT system USES Extensible Markup Language (XML) to represent the bilingual aligned tree-bank and its storage structure.
同时组块库的获取和收集也是一项迫切的任务,由于不易直接获取具有组块标注的语料,当前大多组块语料库是通过转化现有树库获得。
It is laborious to collect the corpus with chunk tags, and thus its acquisition is mostly carried out through the transformation of the existing treebank.
应用推荐