构式知识的形式化表示方案综述



报告人王佳骏
报告时间2019-10-14
讨论组语法理论与语言工程
关键词构式,形式化,类型层级,语义计算
摘要或简介

考察构式句法语义知识的形式化表示方案的目的,是希望借鉴前人的研究成果,一方面扩展和完善已有的现代汉语语法知识表示手段对语言单位的刻画能力,使其可以进一步刻画处于词和短语层级之间的被称作“构式”的语言单位,另一方面在现有语法体系中引入语义表示和计算的手段,使其可以刻画语言单位的意义及其组合性,为表示和计算整句乃至篇章的语义提供支持。扩展的句法语义形式化表示方案可以直接作为知识库表示规范和语料标注规范,指导知识库的知识积累工作和语料库的语料标注工作,同时服务于知识驱动和数据驱动的句法语义自动分析与知识发现等自然语言处理任务。
更为重要同时对语言学更具意义的是,形式化(也就是“面向机器”)的知识表示方案可以为语言学家提供更好的描写工具,更加一致和严谨地刻画传统上通过归纳总结、用自然语言描述的“面向人”的语言知识,使语言学家的工作具备更高的可证伪性,也使得机读形式的知识积累成为可能且变得更为高效。

发布人王佳骏
发布范围全网
讨论记录

BCG对某一个习语实例的允准是由允准一般的短语结构的构式和允准习语的构式共同作用完成的。我们所设计的习语规则表示法应当与已有的短语结构规则表示法无缝对接,在对包含习语的句子进行自动句法分析中共同发挥作用。
BCG中的构式规则通过继承关系相互联系,以此体现规则之间的上下位关系。较为特殊的构式从较为一般的构式处继承信息,同时添加自身所特有的其他信息。下位构式所具有的信息完全包含它所继承的上位构式所具有的信息。当调用较为一般的规则(例如BCG中的XH构式)来允准语言实例时,由于一般性程度较高的规则对实例的约束较少,将会带来将不合语法的实例误判为符合语法的实例的风险。此外,在某个分析阶段分别调用存在继承关系的多个规则来构建多条分析路径,也会造成伪歧义的泛滥。所以,按照继承关系将规则组织起来后,需要对继承层级中的各个规则能否参与语言实例的允准,以及参与允准时父规则和子规则的调用优先级进行规定。

CIG可以看做是将BCG的语言知识表示框架进行工程化的尝试,SAL则采取增量式处理和即时打分排歧的策略,试图模拟人在理解语言时的认知过程。然而它也有明显的不足。
首先,构式库条目数较少(发表在AAAI-92的总结性的会议论文中提到仅有50条左右),不是一个做到了有较大覆盖面的语言工程项目,只能算作“玩具”量级的工作,Jurafsky本人之后也没有继续推进发展这一工作 。另外,在规则库中同时用构词形态、句法范畴和语义范畴来组织知识,会使知识库显得杂乱,不利于知识管理。
另外,SAL的分析策略实际上类似移进-规约剖析算法(shift-reduce parser),都是自底向上,自左向右逐个构建并拼接子树的过程。作者在此基础上加入即时排歧功能并称这模拟了人类解读句子时仅在工作记忆中保留有限的分析结果的认知过程,似乎有些牵强,因为这一做法也可以纯粹视为在技术上降低时空复杂度的途径。

SBCG与BCG和CIG相比,一方面相较于BCG更加严格且具有一致性地刻画了语素、词、习语和短语所具有的性质与组合规则,另一方面其前身HPSG的知识库“英语资源语法”(English Resource Grammar, ERG)做到了对较为广泛的各类语言现象的覆盖,可用于驱动面向真实文本的语言分析器。

下载次数6079
浏览次数7866

下载文献(3.0 MB) 查看幻灯片(3.0 MB)  登录后可执行更多操作


© CCL of   Peking University  2019