毕业论文开题思路:面向中文讽刺识别的语料库构建



报告人邱晓枫
报告时间2022-09-26
讨论组语法理论与语言工程
关键词讽刺 讽刺识别 语言资源 语料库
摘要或简介

讽刺识别”是一个NLP文本分类问题,过去主要用于提高人机对话、情感分析等任务的准确性,近年来随着国家对网络空间信息传播的重视,也服务于舆情检测。中文讽刺识别这个发展中的研究领域,一个公开、完整、可靠的讽刺识别数据集是缺失的。其原因包括本体概念模糊交叉、讽刺这一语言现象形式本身很复杂人工获取成本大难度高,而现在NLP中数据驱动模型也依赖大规模、高质量的训练数据,现有中文讽刺识别研究数据集都是研究单位自己构建且不公开,因此研究结果缺乏对照、模型泛化能力有限,也不利于形成语言资源和方法模型的互相推进。

发布人obito
发布范围校内
讨论记录

下载次数0
浏览次数106

 登录后可执行更多操作


© CCL of   Peking University  2019