北京大学中文系博雅读书会

报告人	邱晓枫
报告时间	2020-06-10
讨论组	语法信息与语言工程
关键词	反讽识别、注意力机制、语言特征
摘要或简介	目前，情感分析是自然语言处理中最活跃的领域之一。反讽是一种特殊的表达情感的修辞手段，通过与文本字面义不一致的隐含义来达到讽刺或幽默的表达效果。反讽的实际语义同字面表达存在反差，因此对于反讽的识别和情感分析具有挑战性。为了提高情感分析的准确度，同时增进对反讽语言现象的认识，本文对中文反讽识别开展研究。针对中文反讽研究实验数据稀缺问题，本文通过人工标注获取了1291条中文反讽语料并以此为基础构建了分布平衡的实验数据集。本文考虑中文社交媒体语言特点，结合反讽理论研究提炼出四种反讽语言的形式特征。在此基础上归纳得到skip-n元词组合、标记强烈情感强度的副词、“被+X”构式、特定的标点符号、特定的网络词汇五种具体语言特征。通过卡方统计量选取多种语言特征对应的特征词。本文还从面向计算机识别的角度对反讽小类进行划分。考虑到反讽识别目标文本的时序性和非连续依赖问题，本文以LSTM为基础，提出了一个融合语言特征的注意力机制的中文反讽识别模型（Irony-Feature Enhanced Attention Network, IEAN）。实验结果显示，该模型较基准模型在识别性能上有所提升，F值达到了0.8390，证明了该模型能够结合语言特征更好地捕捉文本深层语义。此外，该模型较传统深度学习模型在可解释性上也表现出一定优势。
发布人	zwd
发布范围	全网
讨论记录
下载次数	4170
浏览次数	5434

基于语言特征和注意力机制的中文反讽识别研究