基于篇章的时间信息解析



报告人邢丹
报告时间2025-02-27
讨论组语法理论与语言工程
关键词
摘要或简介

本文基于来自6个语料库的132个段落,考察了时间管辖的趋势,并基于Discourse mode理论作为框架探讨了管辖模式及其与话语模式之间的关系。研究主要探讨了以下几个关键问题:
(1) 单时间多事件句和多时间单事件句中时间表达的管辖;
(2) 不同文体和话语模式(discourse mode)中时间管辖的模式;
(3) 决定时间表达式是否管辖句中事件的约束条件,包括限制局部管辖和连续管辖关系的具体条件。

发布人warm
发布范围讨论组内部
讨论记录

1. 核心议题:句子 vs. 篇章层面的时间分析
研究焦点从句子层面(句子)扩展到篇章层面(篇章)。
主要任务(问答任务):解决“什么时候发生的?”以及“在特定时间发生了什么事情?”这类问题。

2. 研究方法论:议论文模式
采用“论证+检验”的模式,这是一种非叙述性的、严谨的研究方法。
具体步骤:提出严谨的问题 -> 建立假设 -> 进行证实。

3. 核心难点:时间表达式与事件的对应关系
一个关键问题是:时间成分具体指向的是哪一件事情?
主要困难在于如何准确判断这种对应关系,目前人工标注的一致率很低。

4. 对“标注一致率低”问题的深入探究
原因分析:
文章本身内容的复杂性和难度。
标注规范不够清晰或细节支撑不足。
解决方案:需要探究每个数据背后不一致的细节,并提供真实案例进行解释和说明。

5. 明确研究范围与操作标准
篇章定义:需要明确“篇章”究竟是多大的范围。
操作层面:
研究对象:确定要研究的时间表达式类型及其范围。
对应事件:明确如何识别与时间表达式相对应的事件。
困难与解决:识别在标注时间表达式时遇到了哪些困难,以及本研究解决了哪些具体问题。

6. 数据与语料库的应用
标注与验证:在语料中进行时间信息标注,并对标注不一致的情况进行验证。
利用现有资源:可以利用已有的语料库,如依存树库、短语结构树库和语义角色标注语料库,来观察时间和事件的分布情况、平均长度等(提及刘海涛的研究作为参考)。
双人标注:建议在已经完成双人标注的语料上考察时间的“管辖”情况。

7. 不一致情况的类型与分析
类型总结:标注不一致的情况可以归纳为不同的集合关系,如交叉、分离、包含等。
原因探究:分析不一致产生的原因,例如不同标注者关注的信息点不同。

8. 理论视角与验证
距离不一致性:观察并分析线性距离(文本顺序)与树结构距离(句法结构嵌套)之间的不一致性。
认知语言学视角:引用或验证戴浩一的“时间顺序原则”(Iconicity Principle)。
歧义动机:从语义理解层面,探究产生歧义的动机。
分布研究:分析时间信息在句法层面和语用层面(如前景/背景信息)的分布规律。

9. 从句子到篇章的扩展研究
研究起点:可以从单句的时间分析开始。
扩展方向:在单句分析的基础上,补充篇章信息,观察歧义是否在篇章层面得到消除。
核心问题:在篇章层面,大家对时间的理解是否会趋于一致?是否存在一个“优势理解”?还是说多种解读的机会是均等的?

10. 关键概念界定
管辖 vs. 约束:“管辖”是一个句法概念,而语义层面更多是“约束”关系(例如,时间A约束事件B)。
事件识别:这是时间关系研究的基础,需要先识别出独立的事件。

11. 研究实践的具体建议
明确问题:清晰地提出问题,并评估其难度。
规则检验:列出所有相关的语言学规则,并检验它们在真实语料中是否都符合。
语料分析:
通过具体语料分析来发现问题、支撑论点。
分析时间表达式的句法位置特征。
需要有一套检验和认定的标准(可以是语感判断,但最好是基于标注语料)。
结合理论与实践:将理论方法(如动机、作用、输入/输出分类)落实到研究实践中的数据验证环节。
LLM的潜在应用:可以思考是否能利用大语言模型(LLM)通过改进提示词(prompt)来辅助研究,但需注意其数据的可靠性。

下载次数0
浏览次数5

 登录后可执行更多操作


© CCL of   Peking University  2019