北京大学中文系博雅读书会

报告人	秦宇航
报告时间	2025-06-05
讨论组	语法理论与语言工程
关键词	评测基准，大语言模型，空间语义理解，空间推理，合成数据
摘要或简介	SpaCE2025旨在提供一个主要为中文的，用于评测大语言模型空间语义理解和空间推理能力的数据集。其包含5个子任务：（1）空间信息正误判断；（2）空间参照实体判断；（3）空间异形同义判断；（4）中文空间方位关系推理；（5）英文空间方位关系推理。其中，任务（4）和任务（5）的试题具有相同的文本内容和试题结构，仅在语言上存在不同。这一设计旨在评测大语言模型跨语言的空间推理能力。12支队伍提交了最终结果，其中最佳队伍的总体准确率为0.7931.上述结果表明，虽然大语言模型可以处理如空间参照实体判断等较为简单的空间语义理解任务，但是在较为复杂任务，如空间信息正误判断、空间异形同义判断、空间方位关系推理等上面的表现仍然有待提升。此外，能够有效激发大语言模型推理能力的微调方法是提高模型表现的关键。本报告在组会上首次报告，为CCL2025评测论坛报告的修订版本。
发布人	hezonglianheng
发布范围	全网
讨论记录	报告的主要问题： 1. 增加图、表等，以结构化的方式呈现需要说明的内容和数据，而不是通过单纯的文字形式呈现（已修改）； 2. 需要筛选评测结果中较为值得报告的部分呈现在报告中，不需要面面俱到（尝试修改）； 3. 文字表述修正（已修改）。
下载次数	62
浏览次数	49

SpaCE2025第五届空间语义理解评测报告