报告人 | 秦宇航 |
报告时间 | 2025-06-05 |
讨论组 | 语法理论与语言工程 |
关键词 | 评测基准,大语言模型,空间语义理解,空间推理,合成数据 |
摘要或简介 | SpaCE2025旨在提供一个主要为中文的,用于评测大语言模型空间语义理解和空间推理能力的数据集。其包含5个子任务:(1)空间信息正误判断;(2)空间参照实体判断;(3)空间异形同义判断;(4)中文空间方位关系推理;(5)英文空间方位关系推理。其中,任务(4)和任务(5)的试题具有相同的文本内容和试题结构,仅在语言上存在不同。这一设计旨在评测大语言模型跨语言的空间推理能力。12支队伍提交了最终结果,其中最佳队伍的总体准确率为0.7931.上述结果表明,虽然大语言模型可以处理如空间参照实体判断等较为简单的空间语义理解任务,但是在较为复杂任务,如空间信息正误判断、空间异形同义判断、空间方位关系推理等上面的表现仍然有待提升。此外,能够有效激发大语言模型推理能力的微调方法是提高模型表现的关键。 |
发布人 | hezonglianheng |
发布范围 | 全网 |
讨论记录 | 报告的主要问题: |
下载次数 | 17 |
浏览次数 | 15 |
© CCL of Peking University 2019