现有研究在判断一个词语复杂与否时往往将多义词作为统一的整体来看待,忽视了词语在不同语境下的意义和用法差异。为弥补现有汉语词汇难度分级方法和词汇复杂度指标体系的不足,本研究拟从算法、资源、应用层面开展研究,在算法层面,本研究拟依托预训练语言模型提供的语境向量来实现小样本情境下的汉语多义词和同形词的义项自动标注算法。在资源层面,本研究拟利用义项自动标注算法,实现基于大型平衡语料库的多义词义频统计,并将统计结果和认知难度、汉字难度和教材位序等其他反映词语难度的特征相结合,构建一个义项粒度的汉语词汇难度分级资源库。在应用层面,义项粒度的汉语词汇难度资源库能为词汇大纲的补充和修订提供参考,更好地辅助汉语词汇教学;进一步地,本研究拟将该资源库与义项自动标注算法相结合以构建义项层面的汉语词汇复杂度指标,并将指标应用于汉语作文质量自动评估、文本可读性分析等任务。
下载文献(369.0 KB) 查看幻灯片(369.0 KB) 登录后可执行更多操作
确定要删除吗?
© CCL of Peking University 2019