北京大学中文系博雅读书会

报告人	胡楠
报告时间	2024-09-11
讨论组	语法理论与语言工程
关键词	空间常识推理数据集大模型评测
摘要或简介	现有的空间推理测评题自动生成有两种路径：人工构造和大模型自动生成。这两种命题方法存在以下方面的问题： ①题目逻辑的正确性无法保证，需要审核校对 ②推理难度难以衡量 ③题目的多样性受限空间关系知识库驱动的自动生成试题的方法具有如下优点： ①题目生成受到知识库逻辑的约束，能确保试题准确。 ②题目构造过程可控性强，能精确衡量试题难度，还能通过试题的各项特征来细粒度地衡量大模型的能力。 ③可实现大规模、自动化的题目生成。
发布人	zwd
发布范围	讨论组内部
讨论记录
下载次数	0
浏览次数	736