北京大学中文系博雅读书会

报告人	邢丹
报告时间	2025-02-27
讨论组	语法理论与语言工程
关键词
摘要或简介	本文基于来自6个语料库的132个段落，考察了时间管辖的趋势，并基于Discourse mode理论作为框架探讨了管辖模式及其与话语模式之间的关系。研究主要探讨了以下几个关键问题： (1) 单时间多事件句和多时间单事件句中时间表达的管辖； (2) 不同文体和话语模式(discourse mode)中时间管辖的模式； (3) 决定时间表达式是否管辖句中事件的约束条件，包括限制局部管辖和连续管辖关系的具体条件。
发布人	warm
发布范围	讨论组内部
讨论记录	1. 核心议题：句子 vs. 篇章层面的时间分析研究焦点从句子层面（句子）扩展到篇章层面（篇章）。主要任务（问答任务）：解决“什么时候发生的？”以及“在特定时间发生了什么事情？”这类问题。 2. 研究方法论：议论文模式采用“论证+检验”的模式，这是一种非叙述性的、严谨的研究方法。具体步骤：提出严谨的问题 -> 建立假设 -> 进行证实。 3. 核心难点：时间表达式与事件的对应关系一个关键问题是：时间成分具体指向的是哪一件事情？主要困难在于如何准确判断这种对应关系，目前人工标注的一致率很低。 4. 对“标注一致率低”问题的深入探究原因分析：文章本身内容的复杂性和难度。标注规范不够清晰或细节支撑不足。解决方案：需要探究每个数据背后不一致的细节，并提供真实案例进行解释和说明。 5. 明确研究范围与操作标准篇章定义：需要明确“篇章”究竟是多大的范围。操作层面：研究对象：确定要研究的时间表达式类型及其范围。对应事件：明确如何识别与时间表达式相对应的事件。困难与解决：识别在标注时间表达式时遇到了哪些困难，以及本研究解决了哪些具体问题。 6. 数据与语料库的应用标注与验证：在语料中进行时间信息标注，并对标注不一致的情况进行验证。利用现有资源：可以利用已有的语料库，如依存树库、短语结构树库和语义角色标注语料库，来观察时间和事件的分布情况、平均长度等（提及刘海涛的研究作为参考）。双人标注：建议在已经完成双人标注的语料上考察时间的“管辖”情况。 7. 不一致情况的类型与分析类型总结：标注不一致的情况可以归纳为不同的集合关系，如交叉、分离、包含等。原因探究：分析不一致产生的原因，例如不同标注者关注的信息点不同。 8. 理论视角与验证距离不一致性：观察并分析线性距离（文本顺序）与树结构距离（句法结构嵌套）之间的不一致性。认知语言学视角：引用或验证戴浩一的“时间顺序原则”（Iconicity Principle）。歧义动机：从语义理解层面，探究产生歧义的动机。分布研究：分析时间信息在句法层面和语用层面（如前景/背景信息）的分布规律。 9. 从句子到篇章的扩展研究研究起点：可以从单句的时间分析开始。扩展方向：在单句分析的基础上，补充篇章信息，观察歧义是否在篇章层面得到消除。核心问题：在篇章层面，大家对时间的理解是否会趋于一致？是否存在一个“优势理解”？还是说多种解读的机会是均等的？ 10. 关键概念界定管辖 vs. 约束：“管辖”是一个句法概念，而语义层面更多是“约束”关系（例如，时间A约束事件B）。事件识别：这是时间关系研究的基础，需要先识别出独立的事件。 11. 研究实践的具体建议明确问题：清晰地提出问题，并评估其难度。规则检验：列出所有相关的语言学规则，并检验它们在真实语料中是否都符合。语料分析：通过具体语料分析来发现问题、支撑论点。分析时间表达式的句法位置特征。需要有一套检验和认定的标准（可以是语感判断，但最好是基于标注语料）。结合理论与实践：将理论方法（如动机、作用、输入/输出分类）落实到研究实践中的数据验证环节。 LLM的潜在应用：可以思考是否能利用大语言模型（LLM）通过改进提示词（prompt）来辅助研究，但需注意其数据的可靠性。
下载次数	0
浏览次数	5

基于篇章的时间信息解析