北京大学中文系博雅读书会

报告人	邓思锐
报告时间	2025-04-17
讨论组	语法理论与语言工程
关键词	空间语义，空间理解评测，FoR，大语言模型，大语言模型评测
摘要或简介	1. 对SpaCE2025参照实体识别任务部分试题（人类测试集）的 LLM 测试表现及错误类型分析。 2. 分享袁毓林《语义理解与常识推理的机器表现和人类基线之比较——怎样评估ChatGPT等大型语言模型的语言运用能力?》有关大语言模型语义理解方面的评测方法和结论，关注人类基线在其中的作用。 3. 分享《FoREST: Frame of Reference Evaluation in Spatial Reasoning Tasks》和《Do Vision-Language Models Represent Space and How? Evaluating Spatial Frame of Reference Under Ambiguities》两篇对语言模型认知和理解空间方位能力评测（特别是空间参照框架的认知情况和视角转换能力）的论文，关注实验方法设计、实验结论分析、与自然语言理解评测的异同及可参照借鉴的地方。
发布人	dsr
发布范围	讨论组内部
讨论记录	讨论认为： 1. 参照实体识别任务在 LLM 上测试的表现和错因分析值得进一步关注和深入考察，以扩充构造有难度、高质量的试题，并结合人类测试分析结果。 2. 目前注意到的两类难题特征：①含“像…”类比喻句的参照实体判别；②“前面-中间(后面)-后面(最后)”/“上面-中间(下面)-下面(再下)”类空间布局的参照实体判别。 3. FoR 评测相关的两项工作，可能为空间推理题目的评测及难题设计提供一定的参考。
下载次数	1
浏览次数	746

空间语义理解评测相关文献分享