1. 对SpaCE2025参照实体识别任务部分试题(人类测试集)的 LLM 测试表现及错误类型分析。 2. 分享袁毓林《语义理解与常识推理的机器表现和人类基线之比较——怎样评估ChatGPT等大型语言模型的语言运用能力?》有关大语言模型语义理解方面的评测方法和结论,关注人类基线在其中的作用。 3. 分享《FoREST: Frame of Reference Evaluation in Spatial Reasoning Tasks》和《Do Vision-Language Models Represent Space and How? Evaluating Spatial Frame of Reference Under Ambiguities》两篇对语言模型认知和理解空间方位能力评测(特别是空间参照框架的认知情况和视角转换能力)的论文,关注实验方法设计、实验结论分析、与自然语言理解评测的异同及可参照借鉴的地方。
发布人
dsr
发布范围
讨论组内部
讨论记录
讨论认为: 1. 参照实体识别任务在 LLM 上测试的表现和错因分析值得进一步关注和深入考察,以扩充构造有难度、高质量的试题,并结合人类测试分析结果。 2. 目前注意到的两类难题特征:①含“像…”类比喻句的参照实体判别;②“前面-中间(后面)-后面(最后)”/“上面-中间(下面)-下面(再下)”类空间布局的参照实体判别。 3. FoR 评测相关的两项工作,可能为空间推理题目的评测及难题设计提供一定的参考。