现有的空间推理测评题自动生成有两种路径:人工构造和大模型自动生成。这两种命题方法存在以下方面的问题:①题目逻辑的正确性无法保证,需要审核校对②推理难度难以衡量③题目的多样性受限空间关系知识库驱动的自动生成试题的方法具有如下优点:①题目生成受到知识库逻辑的约束,能确保试题准确。②题目构造过程可控性强,能精确衡量试题难度,还能通过试题的各项特征来细粒度地衡量大模型的能力。③可实现大规模、自动化的题目生成。
登录后可执行更多操作
确定要删除吗?
© CCL of Peking University 2019