课题工作进展:SpaCE2024空间推理数据集研制



报告人胡楠
报告时间2024-09-11
讨论组语法理论与语言工程
关键词空间常识推理 数据集 大模型评测
摘要或简介

现有的空间推理测评题自动生成有两种路径:人工构造和大模型自动生成。这两种命题方法存在以下方面的问题:
①题目逻辑的正确性无法保证,需要审核校对
②推理难度难以衡量
③题目的多样性受限
空间关系知识库驱动的自动生成试题的方法具有如下优点:
①题目生成受到知识库逻辑的约束,能确保试题准确。
②题目构造过程可控性强,能精确衡量试题难度,还能通过试题的各项特征来细粒度地衡量大模型的能力。
③可实现大规模、自动化的题目生成。

发布人zwd
发布范围讨论组内部
讨论记录

下载次数0
浏览次数7

 登录后可执行更多操作


© CCL of   Peking University  2019