利用xFakeSci学习算法检测ChatGPT生成的伪科学
2024年7月14日,合肥工业大学大知识工程教育部重点实验室主任吴信东教授与美国纽约州立大学宾汉姆顿分校复杂自适应系统与计算智能实验室Ahmed Abdeen Hamed博士合作的研究成果发表在Nature子刊《Scientific Reports》上,该项成果围绕生成式科学论文的真伪鉴别开展研究。
以 ChatGPT 为代表的人工智能生成工具正在飞快应用于各个领域,包括极具科学性和严谨性的科学出版领域。鉴于科学出版物对于人类发展的重要影响,对人工智能生成的科学论文进行真伪鉴别、保护科学出版物的真实性、防止欺诈或其它影响因素来损害这一重要知识来源的完整性,变得极其必要而且刻不容缓。
本研究基于“人工智能生成的内容可能表现出与科学论文截然不同的行为”这一前提假设,设计了一种新颖的伪科学检测算法xFakeSci。首先,论文针对提示工程生成的疾病类论文进行了两阶段测试,证明了这一假设前提的合理性。随后,介绍了xFakeSci算法用于区分ChatGPT生成的论文与科学家发表的论文。该算法使用两种来源驱动的网络模型进行训练,并加入了数据驱动的启发式校准步骤以减少过度拟合问题。通过三种不同疾病的科学论文数据集,实验结果表明了xFakeSci算法的良好性能,其F1值达到了80%-94%,远超其他的数据挖掘算法。xFakeSci算法的引入在打击伪科学的道路上迈出了重要的一步。
论文链接: Detection of ChatGPT fake science with the xFakeSci learning algorithm | Scientific Reports (nature.com) (https://rdcu.be/dNJI3)