北京大学中文系博雅读书会

报告人	王佳骏
报告时间	2022-11-28
讨论组	语法理论与语言工程
关键词	正则表达式，有限状态自动机，循环神经网络，文本分类
摘要或简介	汇报了EMNLP 2022的论文：Cold-Start and Interpretability Turning Regular Expressions into Recurrent Neural Networks 该论文设计了名为FA-RNN（Finite Automaton Recurrent Neural Network）的循环神经网络，可以： 1. 从已有的正则表达式集转换得到，在无数据场景下达到与规则方法相当的表现（普通的神经网络在无数据场景下近似于盲猜，无法使用）。 2. 通过数据训练，进一步提升自身的性能，达到和普通的神经网络相当的表现（普通的规则系统无法利用数据训练提升性能）。 3. 在训练后转换回有限状态自动机，观察训练过程给有限状态机带来的影响，相当于完成了基于数据的知识发现。神经网络和有限状态机之间的相互转换使根据输出需要对神经网络进行定点修改成为可能。
发布人	王佳骏
发布范围	讨论组内部
讨论记录	可在本文工作的基础上，进一步探讨规则和数据之间的关系，并对描述同一语言现象的不同规则集进行对比。
下载次数	0
浏览次数	1203