1. 核心议题:句子 vs. 篇章层面的时间分析 研究焦点从句子层面(句子)扩展到篇章层面(篇章)。 主要任务(问答任务):解决“什么时候发生的?”以及“在特定时间发生了什么事情?”这类问题。
2. 研究方法论:议论文模式 采用“论证+检验”的模式,这是一种非叙述性的、严谨的研究方法。 具体步骤:提出严谨的问题 -> 建立假设 -> 进行证实。
3. 核心难点:时间表达式与事件的对应关系 一个关键问题是:时间成分具体指向的是哪一件事情? 主要困难在于如何准确判断这种对应关系,目前人工标注的一致率很低。
4. 对“标注一致率低”问题的深入探究 原因分析: 文章本身内容的复杂性和难度。 标注规范不够清晰或细节支撑不足。 解决方案:需要探究每个数据背后不一致的细节,并提供真实案例进行解释和说明。
5. 明确研究范围与操作标准 篇章定义:需要明确“篇章”究竟是多大的范围。 操作层面: 研究对象:确定要研究的时间表达式类型及其范围。 对应事件:明确如何识别与时间表达式相对应的事件。 困难与解决:识别在标注时间表达式时遇到了哪些困难,以及本研究解决了哪些具体问题。
6. 数据与语料库的应用 标注与验证:在语料中进行时间信息标注,并对标注不一致的情况进行验证。 利用现有资源:可以利用已有的语料库,如依存树库、短语结构树库和语义角色标注语料库,来观察时间和事件的分布情况、平均长度等(提及刘海涛的研究作为参考)。 双人标注:建议在已经完成双人标注的语料上考察时间的“管辖”情况。
7. 不一致情况的类型与分析 类型总结:标注不一致的情况可以归纳为不同的集合关系,如交叉、分离、包含等。 原因探究:分析不一致产生的原因,例如不同标注者关注的信息点不同。
8. 理论视角与验证 距离不一致性:观察并分析线性距离(文本顺序)与树结构距离(句法结构嵌套)之间的不一致性。 认知语言学视角:引用或验证戴浩一的“时间顺序原则”(Iconicity Principle)。 歧义动机:从语义理解层面,探究产生歧义的动机。 分布研究:分析时间信息在句法层面和语用层面(如前景/背景信息)的分布规律。
9. 从句子到篇章的扩展研究 研究起点:可以从单句的时间分析开始。 扩展方向:在单句分析的基础上,补充篇章信息,观察歧义是否在篇章层面得到消除。 核心问题:在篇章层面,大家对时间的理解是否会趋于一致?是否存在一个“优势理解”?还是说多种解读的机会是均等的?
10. 关键概念界定 管辖 vs. 约束:“管辖”是一个句法概念,而语义层面更多是“约束”关系(例如,时间A约束事件B)。 事件识别:这是时间关系研究的基础,需要先识别出独立的事件。
11. 研究实践的具体建议 明确问题:清晰地提出问题,并评估其难度。 规则检验:列出所有相关的语言学规则,并检验它们在真实语料中是否都符合。 语料分析: 通过具体语料分析来发现问题、支撑论点。 分析时间表达式的句法位置特征。 需要有一套检验和认定的标准(可以是语感判断,但最好是基于标注语料)。 结合理论与实践:将理论方法(如动机、作用、输入/输出分类)落实到研究实践中的数据验证环节。 LLM的潜在应用:可以思考是否能利用大语言模型(LLM)通过改进提示词(prompt)来辅助研究,但需注意其数据的可靠性。 |