一种利用大语言模型和论文潜台词检验论文质量的思路

前言

想必这张中科院大学2023级新生入学时，标题为「要知道这种情况的存在，但一定不能这样做」的PPT，各位都看过了。这是一些在专业文献写作中，常见的潜台词，比如：

“人们早已知道” 对应着 “我找不到原始的参考文献了”
“经同行的进一步研究” 对应着 “其实他们也搞不懂”

可以利用大语言模型和这些列出的负面潜台词，设计一个检验论文质量的思路

基本假设

在论文写作中，大量使用负面潜台词的作者，经验不足，绩效可能性出现高质量论文

1. 利用LLM扩展负面潜台词

首先把负面潜台词做分组：证据不足、实验有限、观点争议、……
利用LLM，对潜台词做同义近义扩展，形成负面评价因子集

2. 基于相似计算和统计，评估论文在不同负面分组上的评分

利用LLM对待评估论文，做清洗，保留负面潜台词，忽略其他内容
对负面潜台词的数量做积分统计

3. 选择低质量论文，继续扩展

引用低质量论文的论文，记为负面（可以设置权重，降权）
与低质量论文结构相似，LLM总结的summary接近的，记为负面（可以设置权重，降权）

结语

哪位有数据的研究者，可以试试这个思路，同理，用LLM来扩展正负面的关键词/关键要素，可以设计评估其他内容质量的模型

标签：产品, 思维

评论已关闭