空间语义理解评测相关文献分享



报告人邓思锐
报告时间2025-04-17
讨论组语法理论与语言工程
关键词空间语义,空间理解评测,FoR,大语言模型,大语言模型评测
摘要或简介

1. 对SpaCE2025参照实体识别任务部分试题(人类测试集)的 LLM 测试表现及错误类型分析。
2. 分享袁毓林《语义理解与常识推理的机器表现和人类基线之比较——怎样评估ChatGPT等大型语言模型的语言运用能力?》有关大语言模型语义理解方面的评测方法和结论,关注人类基线在其中的作用。
3. 分享《FoREST: Frame of Reference Evaluation in Spatial Reasoning Tasks》和《Do Vision-Language Models Represent Space and How? Evaluating Spatial Frame of Reference Under Ambiguities》两篇对语言模型认知和理解空间方位能力评测(特别是空间参照框架的认知情况和视角转换能力)的论文,关注实验方法设计、实验结论分析、与自然语言理解评测的异同及可参照借鉴的地方。

发布人dsr
发布范围讨论组内部
讨论记录

讨论认为:
1. 参照实体识别任务在 LLM 上测试的表现和错因分析值得进一步关注和深入考察,以扩充构造有难度、高质量的试题,并结合人类测试分析结果。
2. 目前注意到的两类难题特征:①含“像…”类比喻句的参照实体判别;②“前面-中间(后面)-后面(最后)”/“上面-中间(下面)-下面(再下)”类空间布局的参照实体判别。
3. FoR 评测相关的两项工作,可能为空间推理题目的评测及难题设计提供一定的参考。

下载次数1
浏览次数6

 登录后可执行更多操作


© CCL of   Peking University  2019