研究人员使用聊天机器人协助完成同行评议。图片来源:Rmedia7/Shutterstock
一项近日公布于arXiv预印本的研究发现,在同行评议报告中出现了人工智能文本常用的流行形容词。这表明,研究人员正在转向用ChatGPT和其他人工智能工具评价他人的工作。
据《自然》报道,作者研究了自ChatGPT发布以来,人工智能聊天机器人在多大程度上修改了提交给4个主要计算机科学会议论文集的同行评议报告。分析表明,高达17%的同行评议被聊天机器人进行了实质性修改,尽管尚不清楚研究人员是使用这些工具从头开始创作评议报告,还仅是编辑和修改了书面草稿。
德国柏林工程应用技术大学的Debora Weber-Wulff表示,鉴于聊天机器人经常产生误导性或捏造的信息,让它为未发表的作品撰写评议报告的做法“非常令人震惊”。她强调:“人工智能系统会‘产生幻觉’,但我们不知道它们何时会产生幻觉、何时不会产生幻觉。”
自2022年11月发布以来,ChatGPT已被用于撰写大量科学论文,在某些情况下甚至被列为作者。在曾于2023年接受《自然》杂志的一项调查的1600多名科学家中,近30%的人表示使用生成式人工智能撰写过论文,并有约15%的人表示将其用于自己的文献评论和撰写经费申请书。
在这项研究中,由美国斯坦福大学计算机科学家梁伟欣(音)领导的团队开发了一种技术,通过识别人工智能比人类更频繁使用的形容词来搜索人工智能创作的文本。
研究人员比较了ChatGPT发布前后提交给同一会议的14.6万多篇同行评议报告中的形容词使用情况。分析发现,自从聊天机器人的使用成为主流以来,某些积极形容词的使用频率显著增加,如“值得称赞的”“创新的”“细致的”“复杂的”“值得注意的”和“多才多艺的”。这项研究列出了使用频率最高的100个形容词。
研究发现,在那些对会议论文集评价较低、在截止日期前提交的以及作者最不可能回应或反驳的评议中,最有可能包含这些形容词。因此,至少在某种程度上,这些同行评议最有可能是聊天机器人撰写的。“似乎当人们没有时间的时候,他们更倾向于使用ChatGPT。”梁伟欣说。
该研究还调查了2019年至2023年间,被15种《自然》期刊接收并发表的约1万篇稿件的2.5万多篇同行评议。结果发现,自ChatGPT发布以来,相同形容词的使用并没有出现激增。
施普林格·自然的一位发言人表示,出版商要求同行评议人员不要将手稿上传到生成式人工智能工具中,并指出这些工具仍有“相当大的局限性”,此外,同行评议可能包含敏感或专有信息。
该发言人表示,施普林格·自然正在探索如何为同行评议人员提供安全的人工智能工具以指导评议。
英国伦敦大学学院的Andrew Gray表示,梁伟欣的研究发现在ChatGPT发布后的评议中流行语的增加是“非常惊人的”。他近期的一项研究估计,2023年发表的至少6万篇论文的作者在某种程度上使用了聊天机器人,至少占当年发表的所有学术研究的1%。
Gray说,同行评议人员可能只是在编辑或翻译时使用了聊天机器人,但由于缺乏透明度,这很难判断。“有证据表明这些工具正在被使用,但我们并不真正了解它们是如何被使用的。”
“我们不希望作出价值判断,也不希望声明使用人工智能工具审查论文一定是好是坏。” 梁伟欣说,“但我们确实认为,为了透明度和问责制,估计最终文本中有多少可能是由人工智能生成或修改的是很重要的。”
Weber-Wulff认为,在同行评议过程中,不应该在任何程度上使用ChatGPT这样的工具,她担心,在那些没有发表的评议报告中,聊天机器人的使用率可能会更高。“同行评议已经被人工智能系统破坏了。”她说。
此外,Weber-Wulff补充说,使用聊天机器人进行同行评议也可能涉及版权问题,因为这些工具会访问机密、未发布的信息。
😁