北京大学中文系博雅读书会

报告人	肖力铭
报告时间	2022-12-05
讨论组	语法理论与语言工程
关键词	LIME；可解释性
摘要或简介	黑盒模型在现实世界面临信任危机，因为人类搞不懂它的运作模式，单纯用评测指标给出几个分数并不能让人信服。因为分数高的模型可能泛化能力弱，决策过程也可能不可信。本文提出了LIME方法：使用可解释特征训练一个模拟黑盒模型局部决策行为的解释器。首先选择一个样本作为被解释的对象，将该样本转换为由0或1组成的可解释特征，并对该特征扰动，生成多个伪样本，模拟目标样本的周围环境，然后将伪样本输入黑盒模型，得到预测结果。最后，用伪样本的可解释特征和预测结果来训练一个线性回归模型，通过权重便可以反映文本中每个词在黑盒模型做预测时的贡献度。为了对黑盒模型作出全局解释，本文进一步提出SP-LIME方法，通过衡量样本的特征覆盖度，选取多个代表性样本进行解释。最后，本文进行了五个实验来展示解释器的作用：反映某个模型作出的预测结果是否可信、为多个模型的比较提供依据、通过特征工程改进模型、发现模型不可信的原因。
发布人	肖力铭
发布范围	全网
讨论记录
下载次数	438
浏览次数	1062