神经网络语言模型中的现代汉语细粒度语法知识探究



报告人王佳骏
报告时间2023-10-11
讨论组语法理论与语言工程
关键词符号主义,神经网络,探针分类器,降维,可视化
摘要或简介

汇报了毕业论文的进展状况,包括以下实验:
1. 词类标注探针实验:探究并比较预训练模型各层词向量中词类信息的多少。
2. 细粒度词类特征探针实验:探究并比较预训练模型各层词向量中各种细粒度词类特征信息的多少。
3. 现代汉语语法信息词典(GKB)词向量和预训练模型词向量的词间间距相似度实验:对于各个词类,观察该词类中GKB中词向量的两两间距和预训练模型中词向量的两两间距是否正相关,以此反映符号主义和联结主义模型的一致性。
4. 基于PCA降维的词向量热力图分析:计算降维后词向量各个维度上的值与各个粒度的语法特征之间的相关性,探究降维后的向量的特定维度对特定语法特征的各个取值的区分能力高低。
5. 基于PCA降维的词向量柱状图分析:考察降维后词向量各个维度上落在各个区间内的词频,考察那些词频远高于周围区间的区间,考察这些区间中的词在某个语言学层次上具有的共性。

发布人王佳骏
发布范围讨论组内部
讨论记录

探针实验中用损失函数来评价探针的标注成绩不够直观,最好换成准确率(accuracy)。

下载次数1
浏览次数16

 登录后可执行更多操作


© CCL of   Peking University  2019