百名知名科研院校机构研究员联名论文涉嫌抄袭，第一作者单位道歉-上游新闻汇聚向上的力量

近日，一则关于百位学者署名的大模型综述研究论文涉嫌抄袭的消息引发关注。上游新闻记者在论文首页看到，这100名学者来自19家科研院校，分别是清华、北大、人大、上海交大等国内高校，哥伦比亚大学、蒙特利尔大学等国外高校，以及字节跳动、华为等企业实验室以及中科院、微软亚洲研究院和北京智源人工智能研究院等科研机构（以下简称：北京智源研究院）。

4月13日，该论文的第一作者单位北京智源研究院官网发布“致歉信”回应：“对这一情况，研究院立即组织内部调查，确认部分文章存在问题后，已启动邀请第三方专家开展独立审查，并进行相关追责。”4月15日，上游新闻记者致电北京智源研究院官网预留座机，电话语音提示“拨打的号码为空号”。

北京智源研究院官微发布“致歉信”

谷歌研究员发文，称论文遭抄袭

随着以深度学习为代表的AI技术的快速发展，智能模型的训练应用模式也在与时俱进。4月13日，宾夕法尼亚大学博士生、谷歌研究员 Daphne Ippolito 在社交媒体上表示，智源研究院一篇拥有 100 位作者署名的综述研究《A Roadmap for Big Model》（大模型路线图）涉嫌抄袭了多篇论文内容，其中就包括自己团队成员Nicholas Carlini的一项研究《Deduplicating Training Data Makes Language Models Better》。上游新闻记者注意到，该推文附有Nicholas Carlini博客的链接， Nicholas Carlini 在这篇4月8日的博客中写道：“我的一位合著者正在阅读《A Roadmap for Big Model》论文，并注意到其中一些文本似乎很熟悉，在快速查看后，我们发现实际上有一堆文本是直接从我们的论文中复制而来的。”

上游新闻记者看到，Nicholas Carlini还在博客中举证，自己论文被抄袭的相关部分，左侧以绿色高亮显示的是抄袭论文中的文本，右侧是原始论文中的相应文本。

4月12日， Nicholas Carlini 又更新了博客，他写道：“在不知道幕后发生的事情的情况下，我想避免做出判断。也许一些初级作者的本意是好的，认为有一条引文就可以复制文本……对于资深作者来说，他们可能已经阅读了文本，认为它看起来非常合理，并且只是对文本进行了一些调整，而不知道它来自哪里。关键是我们不知道，这篇论文有 100 位作者，任何事情都可能发生。”

原作者论文发布时间（首发2021年7月14日，最后更新时间2022年3月24日）

Nicholas Carlini最后写道，“我希望这篇博客能够引起人们对此类事情的注意。例如，大约有 1% 的已发表和被接收的论文比这篇报告有更高的数据复制比例。当初我在写这篇博客的时候应该给出这个背景。所以，再次希望大家不要特别严厉地批评这篇(涉嫌抄袭的)论文。”

涉嫌抄袭论文作者来自19家机构

上游新闻记者在这篇涉嫌抄袭的《A Roadmap for Big Model》（大模型路线图）的首页看到，这篇论文的署名作者多达百人，参与的作者来自19家海内外科研院校和机构，包括清华大学、东北大学、纽约大学、北京大学、哥伦比亚大学、哈尔滨工业大学、北京航空航天大学、上海交通大学、蒙特利尔大学，字节跳动AI实验室、华为理论计算机实验室、中科院软件所、自动化所，微软亚洲研究院和北京智源研究院等。

论文首页显示，这100名学者来自19家顶尖科研院校

在论文作者介绍部分写道，“唐杰设计了这个大模型路线图”。上游新闻记者在北京智源研究院官网“智源社区”检索看到，3月31日，一篇“如何炼大模型？200页pdf100+位作者19家单位！北京智源清华唐杰等发布《大模型路线图》论文，详述预训练大模型资源技术应用”的文章，文章介绍了这篇论文：“北京智源人工智能研究院最近发布的《A Roadmap for Big Model》由悟道大模型研究项目负责人，智源学术副院长，清华大学计算机系教授唐杰牵头。从大模型基础资源、大模型构建、大模型关键技术与大模型应用探索4个层面出发，对15个具体领域的16个相关主题进行全面介绍和探讨。非常值得关注。”据清华大学官微《祝贺！5位清华人当选！》国际计算机学会会士的文章介绍，“ 唐杰，清华大学计算机系教授。2006年在清华大学计算机系获得博士学位。研究兴趣包括社会网络分析、数据挖掘、机器学习和知识图谱。因对信息和社交网络挖掘的贡献而当选。”

3月31日，论文第一作者北京智源社区以《如何炼大模型？200页pdf100+位作者19家单位！北京智源清华唐杰等发布》为题介绍该篇论文，牵头人系清华大学教授唐杰

第一作者单位发致歉信：启动独立调查追责

4月13日晚，论文第一作者单位北京智源人工智能研究院发布了《关于 “A Roadmap for Big Model” 综述报告问题的致歉信》，并表示：“对这一情况，研究院立即组织内部调查，确认部分文章存在问题后，已启动邀请第三方专家开展独立审查，并进行相关追责。”

智源研究院内部调查的初步结果如下：

1. 该报告是一篇大模型领域的综述，希望尽可能涵盖国内外该领域的所有重要文献，由智源研究院牵头，负责框架设计和稿件汇总，并邀请国内外100位科研人员分别撰写了16篇独立的专题文章，每篇文章分别邀请了一组作者撰写并单独署名，共257页。报告发布后，根据反馈持续进行修改完善，到4月2日在arXiv网站上已经更新到第三版。

2. 4月13日，我们获悉谷歌研究员Nicholas Carlini在个人博客上指出该报告抄袭了他们论文的数个段落，同时还有其他段落和语句抄袭其他论文。我们对此进行了逐项核查，经查重确认第2篇文章的第3.1节179个词，第8篇文章的第3.1节74个词、第12篇文章的第2.3节55个词、第14篇文章的第2节159个词、第16篇文章的第1节146个词与其他论文重复，应属抄袭。我们决定立即从报告中删除相应内容，报告修订版今天将提交arXiv进行更新。目前已通知所有文章的作者对所有内容进行全面审查，后续经严格审核后再发布新版本。

3. 智源作为该报告的组织者，理应对各篇文章的所有内容进行严格审核，出现这样的问题难辞其咎。对此我们深感自责，特别感谢学术界和媒体的朋友们帮助我们发现问题。我们将深刻吸取教训，整改科研管理和论文发表流程，希望各界朋友监督我们工作。

上游新闻记者统计发现，自查的抄袭部分涉及5个章节，共计613个单词。智源研究院在致歉信中称，对学术不端零容忍，将进一步完善制度管理，通过更加严格的审核机制和更加明确的惩戒措施，对研究院内部以及支持的科研人员加强学风教育，防范同类事件的再次发生。

上游新闻记者冯盛雍

【免责声明】上游新闻客户端未标有“来源：上游新闻”或“上游新闻LOGO、水印的文字、图片、音频视”等稿件均为转载稿。如转载稿涉及版权等问题，请联系上游。

上海市副市长：防疫工作还存在很多不足 我们一定尽全力改进

是谁摧毁了“莫斯科”号巡洋舰？

公司向境外出售高铁数据：一个月采集信号数据达500个G

55岁妻子坠亡，哈尔滨师范大学原党委书记辛宝忠涉嫌刑事犯罪被批捕

封控那一夜：2万人赶往浦东，金融白领靠一套睡衣在地板睡了12天

上海市副市长：防疫工作还存在很多不足 我们一定尽全力改进

银保监会：不得对受疫情影响的小微企业和个体工商户抽贷断贷

新加坡第四代领军人黄循财：因抗疫声名鹊起，爱弹吉他会唱闽南歌曲

55岁妻子坠亡，哈尔滨师范大学原党委书记辛宝忠涉嫌刑事犯罪被批捕

百名知名科研院校机构研究员联名论文涉嫌抄袭，第一作者单位道歉

上海一对夫妻以社区团购名义向超市订购食品低价买入高价卖出 被重罚

公司向境外出售高铁数据：一个月采集信号数据达500个G

买药难、就医难，守护疫情下上海533万老人！

2亿人灵活就业，真的“灵活”吗？

是谁摧毁了“莫斯科”号巡洋舰？

安徽女子被老公家暴致死，亲属：真后悔劝她不要离婚 凶手要偿命

余承东：如不能及时复工复产，5月后疫情所涉供应链会全面停产

图解 | HPV疫苗现在起确定只打一针吗？看完你就明白了

主播擅播《琅琊榜》 虎牙直播被判侵权

封控那一夜：2万人赶往浦东，金融白领靠一套睡衣在地板睡了12天

俄国防部披露：美国科学家利用乌克兰精神病患者进行生物实验

海南东方市警方对4名重大刑案在逃人员进行悬赏 每起案件奖励20万元

上海市副市长：防疫工作还存在很多不足 我们一定尽全力改进

燃！英国12岁残疾少年坐轮椅完成后空翻

430亿美元收购推特 马斯克钱从哪儿来？

银保监会：不得对受疫情影响的小微企业和个体工商户抽贷断贷

55岁妻子坠亡，哈尔滨师范大学原党委书记辛宝忠涉嫌刑事犯罪被批捕

上海：医疗机构不得以等待核酸检测结果为理由拒绝推诿 延误治疗

银保监会：银行业保险业风险整体可控，保险业偿付能力处于较高水平

谭德塞：乌克兰局势备受关注，其他国家的危机却遭忽视

新加坡第四代领军人黄循财：因抗疫声名鹊起，爱弹吉他会唱闽南歌曲

百名知名科研院校机构研究员联名论文涉嫌抄袭，第一作者单位道歉

男子称帮人网购的全身镜有“裸身瘦身”功能，女买家发现内藏4针孔摄像头

黑龙江齐齐哈尔施行“反向扫码”，老人儿童也有了专属出行码

大秦铁路天津蓟州段停放货车溜车相撞出轨坠桥，目击者称桥下是农田

紫金矿业内蒙古矿山被查实无证越界采矿400万吨，总经理投案警方立案调查

百万粉丝博主拉出网红服装店“黑榜” 商家哭诉“隔空对战”

两列运煤火车天津蓟州区相撞：9节车厢坠桥

释永信退出少林无形资管公司股东 此前持股80%

豆瓣鹅组等7个豆瓣问题小组被停用

信披出现四个问题 联想控股遭证监局责令整改

“气球哥”签约MCN当网红，谭sir为何不为他开心？

最美外卖小姐姐暴雨中捞车：当天正值生理期，工作也要打扮得美美的

百余宠物猫疑因食用同一品牌猫粮死亡，涉事商家：已送检，发病机制未明

主播“信阳第一富二代”回应被法院悬赏追债4250元：我是个虚伪的人

午评｜降息预期落空，A股继续调整：创指一度跌超2%，两市近3900股下跌

国家统计局：3月份70城商品住宅销售价格环比下降个数减少

一季度国内新建8.1万个5G基站，总规模超过150.6万个

特斯拉在美召回逾60万辆电动汽车 四大车型都有涉及

深度解读全国统一大市场：“地随人走、钱随人走”有望成为趋势

上海：将对城乡低保对象、特困人员等发放一次性补贴

银保监会：对符合续贷条件的小微企业和个体工商户 银行要积极给予续贷支持

首单银行IPO被否案例说明了什么？

一季度银行业不良贷款余额3.7万亿元，不良率1.79%

王思聪PK以岭药业，你挺谁？

288万理赔款替他诉说 来不及说出口的爱

央行等额续作MLF，利率不变

3月70城房价公布！乌鲁木齐涨1%领跑

“女装之王”拉夏贝尔宣布退市，股价暴跌96.6%！这些公司也悬！

宁德时代与印度尼西亚携手打造近60亿美元动力电池产业链项目

今日评论速览 | “丹东草莓”江苏发货，谁是“羊头”谁是“狗肉”

美国枪患“不治之症”是现代文明的污点

用一江碧水托起“美丽经济”

树牢总体国家安全观 感悟新时代国家安全成就

攥紧中国农业“芯片”，加快种业破壳

“流量乞丐”出现变种，平台监管需应变

珍惜大龄读研群体给研究生教育带来的多样性

带文件复出的酸菜面更需“带责任复出”

“信阳第一富二代”翻车，网络虚假人设该管管了

经济区与行政区适度分离改革，如何探路“破题”

人民网：现实题材作品“贩卖焦虑”要适可而止

双城经济圈用好人才资源，关键在统筹协同

网络自制食品药品安全不能指望商家自律

今日评论速览 | 经营贷换房贷当休矣

媒体：“储备粮致全球粮价上涨”的说法荒唐

本周热榜

汽车

教育

美家

楼市

上海市副市长：防疫工作还存在很多不足我们一定尽全力改进

上海市副市长：防疫工作还存在很多不足我们一定尽全力改进

上海一对夫妻以社区团购名义向超市订购食品低价买入高价卖出被重罚

安徽女子被老公家暴致死，亲属：真后悔劝她不要离婚凶手要偿命

主播擅播《琅琊榜》虎牙直播被判侵权

海南东方市警方对4名重大刑案在逃人员进行悬赏每起案件奖励20万元

上海市副市长：防疫工作还存在很多不足我们一定尽全力改进

430亿美元收购推特马斯克钱从哪儿来？

上海：医疗机构不得以等待核酸检测结果为理由拒绝推诿延误治疗

释永信退出少林无形资管公司股东此前持股80%

信披出现四个问题联想控股遭证监局责令整改

特斯拉在美召回逾60万辆电动汽车四大车型都有涉及

银保监会：对符合续贷条件的小微企业和个体工商户银行要积极给予续贷支持

288万理赔款替他诉说来不及说出口的爱

树牢总体国家安全观感悟新时代国家安全成就