近日,中国海洋大学二语习得跨学科研究团队成员刘颖颖副教授在国际语言学顶刊Computer Assisted Language Learning(《计算机辅助语言学习》)发表论文“Enhancing GPT-based automated essay scoring: the impact of fine-tuning and linguistic complexity measures”(强化基于GPT的写作自动评分:微调与语言复杂度指标的影响)。
该研究探索了大语言模型在写作自动评分领域中的应用,探讨了其可靠性、准确性及公平性等问题。研究采用预训练人工智能大语言模型,对母语为汉语、法语、德语、西班牙语的二语学习者的英文写作进行自动评分,对比了微调大语言模型、语言复杂度指标,以及两者相结合等三种方式在自动评分上的表现,揭示了微调技术与语言复杂度指标在写作自动评分中的作用。
研究发现,微调大语言模型与人类评分者具有较高的一致性,能够较准确地评估中、高水平作文,但在低水平作文评分时准确性偏低,反映出训练集内低水平样本不足所导致的类别不均衡问题。此外,大语言模型的评分结果普遍高于人工评分,且针对不同一语背景写作者的作文,评分准确度存在组间差异。分析显示,“微调大语言模型+语言复杂度参数”的复合模型在三种方式中表现最优,但相较于仅使用微调大语言模型,优势并不明显。本研究展现了生成式人工智能在二语写作测试中的应用前景,并为该领域的后续研究提供了有益参考。
友情 | |
---|---|
招办 | |
媒体 |