2022年4月13日,大模型综述报告“A Roadmap for Big Model”(以下简称“综述报告”)因涉嫌抄袭受到国内外关注。当日,北京智源人工智能研究院(以下简称“智源研究院”)立即启动内部调查,确认部分文章可能存在问题后,根据国家新闻出版署《学术出版规范 期刊学术不端行为界定》标准(CYT 174-2019)并参照《IEEE出版物服务和产品委员会操作手册》(IEEE Publication Services and Products Board Operations Manual)“对不同等级的抄袭行为进行判定的指南”,从严要求被质疑文章的作者向可能被抄袭的原作者发出了致歉信,并安排综述报告第一作者从arXiv撤稿,同时启动了第三方调查流程。
4月14日智源研究院理事会委托中国计算机学会作为第三方开展独立调查。智源研究院还就IEEE手册条款的理解和抄袭严重程度的认定,通过邮件咨询了IEEE学术出版规范负责人的意见。
根据CCF调查报告和IEEE专家反馈,智源研究院与16篇文章的通讯作者进行了沟通,对于存在问题文章的作者责任进行了核查与认定,现将调查和处理情况通报如下。
1. 组织失察责任认定
该综述报告由智源研究院大模型研究中心牵头组织、邀请国内外19个机构共100位科研人员分别撰写的16篇独立专题文章组成,每篇文章都有对应的撰写作者和通讯作者(除第12篇外),所有作者共同署名整个报告(这种组织模式参考了斯坦福大学“On the Opportunities and Risks of Foundation Models” (https://arxiv.org/pdf/2108.07258v2.pdf) 一文的编撰方式)。综述报告首先上传至预印本网站arXiv,原计划经过修改完善后再正式出版。
智源研究院大模型研究中心作为组织单位,对综述报告撰写中可能存在的风险隐患缺少充分考虑,未采取必要措施避免相关问题出现,对整个事件负有监督失察责任。
综述报告的第一作者(智源大模型研究中心人员)未严格按照学术出版规范的流程执行,在未与其他作者确认的情况下,于2022年3月26日将综述报告上传至arXiv,负有主要组织责任。
2. 两处抄袭的责任认定
综述报告10处被质疑片段中,2处属于抄袭。
第2篇文章的2.3.1节存在共计179个单词的多句重复,在最开始明确标注了引用文献,但未明确区别引用文字,且篇幅较大,属于《学术出版规范 期刊学术不端行为界定》“三、论文作者学术不端行为类型”中的“1.5 文字表述剽窃”:“成段使用他人已发表文献中的文字表述,虽然进行了引注,但对所使用文字不加引号,或者不改变字体,或者不使用特定的排列方式显示”,达到《IEEE出版物服务和产品委员会操作手册》“对不同等级的抄袭行为进行判定的指南”中“第5级”(认定要点为“对一篇文章的主要部分逐字复制,虽有引注但缺乏清晰区分”。说明:抄袭共分5级,第1级最严重,第5级最轻微),由该文章的第二作者(智源大模型研究中心人员)完成,应负直接责任。该文章的通讯作者(智源大模型研究中心人员),未对该文章进行有效审查,应负失察责任。该篇文章第2.4.3节存在多句重复,有明确参考文献标注,属于规范引用。参与文章的其他作者撰写的部分未发现抄袭。
第 8 篇文章的 8.3.1 节存在 74 个单词的整句重复,无明确引用,属于抄袭,相关段落由该文章第一作者(智源大模型研究中心人员)完成,应负直接责任。该章其他作者是文章初稿完成人,初稿不涉及被质疑内容。该章第一作者未经通讯作者及其他作者同意将自己加为第一作者并对该章进行了大篇幅修改,且在文章发布前未与通讯作者确认,因此该章的通讯作者和其他作者没有责任。
上述两名作者已经按照IEEE手册的对应纠正措施向原作者致歉,并得到原作者谅解,履行了应该承担的相关学术责任。
3. 四处引用不规范的责任认定
除前述2处抄袭外,综述报告10处被质疑片段中,尚有部分片段属于引用不规范,但不构成抄袭,其他被质疑部分属于规范引用。具体认定如下:
第10篇文章存在少数重复文字,是在明确添加标注引用参考文献情况下的转述,属于规范引用。
第12篇文章的12.2.3节存在共计36个单词的重复,无整句重复,相关内容由该文章第二作者完成。重复内容包括两个部分,一部分包含17个重复单词,属于规范引用参考文献;另一部分包含19个重复单词,在对相关领域介绍时,引用了其他论文引言部分对于本领域的总结,但在本句中未标注引用参考文献,属于引用不规范,但不构成抄袭。该文章无通讯作者,其他作者是文章的完成人,所撰写的部分未发现抄袭。
第14篇文章14.2.2节一处多句63个单词重复,有明确参考文献标注,属于规范引用。14.2.3节一处一句30个单词重复,有明确参考文献标注,属于规范引用。14.2.2节另存在一处一句29个单词的重复,文字上指明了引用对象,但本句没有直接添加引用,相关段落由该文章的第二作者完成;14.2.3节另存在一处一句27个单词重复,在14.2.3节中有参考文献标注,在本句中没有直接标注,相关段落由该文章的第四作者完成,上述两处属于引用不规范,但不构成抄袭。该文章其他作者撰写的部分未发现抄袭。
第16篇文章16.1节一处存在多句重复,相关段落由第二作者完成。该段落起始处对参考文献有明确引用,后续其他句子存在本句未直接标注的情形,属于引用不规范,但不构成抄袭。该文章其他作者撰写的部分未发现抄袭。
综述报告第3、4、5、6、7、9、11、13、15、17篇文章未发现抄袭。
4. 处理和整改情况通报
智源研究院在质疑发生后,对照国家新闻出版署《学术出版规范 期刊学术不端行文界定》标准并参照《IEEE出版物服务和产品委员会操作手册》对抄袭的认定指南,从严要求,安排可能存在问题文章的作者向原作者进行了书面致歉,均已得到原作者反馈和谅解。同时,安排第一作者完成从arXiv撤稿。上述的抄袭和引用不规范的调查结论也已通知所有作者并获得确认。对照《IEEE出版物服务和产品委员会操作手册》对抄袭行为的处罚措施,智源研究院和相关责任人已经从严履行了应该承担的相关学术责任。
鉴于上述两处抄袭和组织失察责任人均为智源研究院大模型研究中心人员,智源研究院决定重组该部门,上述相关责任人均已主动离职。
除上述智源研究院相关责任人外,综述报告其他所有作者没有抄袭及学术不端行为。在此对此次事件给这些作者造成的负面影响和困扰表示诚挚歉意!
针对此次事件发现的论文发表流程中的风险漏洞,智源研究院已经整改了论文发表流程,并修订完善了科研诚信与学风建设制度。后续,智源研究院计划与学界和业界合作,制定更严谨的文献引用规范,开发论文和代码开源检测工具和系统,避免再次出现类似问题。
再次诚挚感谢各界朋友对智源研究院的监督和批评!
北京智源人工智能研究院
2022年7月15日