探讨用大语言模型做机器翻译译文质量评估任务(QE)的新方法



报告人崔香
报告时间2025-05-08
讨论组语法理论与语言工程
关键词LLM;机器翻译译文质量评估;自动评估
摘要或简介

机器翻译性能的提升离不开及时反馈,但人工反馈成本高,需要自动评估方法。随着大语言模型的发展,QE领域也有学者尝试用大语言模型给译文进行自动化打分,但表现没有预期好。比如2024年ACL的一篇论文得出提供原文会降低相关系数的结论,但几个月之后EMNLP的一篇论文又得出了不提供原文才会降低相关系数的相反结论。也就是说,目前用LLM做QE任务的方法鲁棒性差且效果不好。本次汇报的目的是尝试用新方法来提升用LLM做QE任务的表现。

发布人崔香
发布范围全网
讨论记录

1. 解决llama-13b的评测问题
2. 修改题目,因为新方法并不是完全使用了生成式特点
3. 补全优化实验步骤,让实验步骤看起来更一目了然

下载次数2
浏览次数0

下载文献(22.2 KB) 查看幻灯片(195.0 KB)  登录后可执行更多操作


© CCL of   Peking University  2019