谷歌DeepMind被曝抄袭开源成果，论文还中了顶流会议

2024-07-15 14:08:10

导读大模型圈再曝抄袭大瓜，这回，“被告”还是大名鼎鼎的谷歌DeepMind。“原告”直接怒喷:他们就是把我们的技术报告洗了一遍!具体是这么个事儿...

大模型圈再曝抄袭大瓜，这回，“被告”还是大名鼎鼎的谷歌DeepMind。

“原告”直接怒喷:他们就是把我们的技术报告洗了一遍!

具体是这么个事儿:

谷歌DeepMind一篇中了顶流新生代会议CoLM2024的论文被挂了，瓜主直指其抄袭了一年前就挂在arXiv上的一项研究。开源的那种。

两篇论文探讨的都是一种规范模型文本生成结构的方法。

抓马的是，谷歌DeepMind这篇论文中确实明晃晃写着引用了“原告”的论文。

然鹅，即便是标明了引用，“原告”的两位论文作者Brandon T. Willard（布兰登）和R´emi Louf(雷米)还是坚称谷歌抄袭，并认为:

而不少网友看过论文后也缓缓打出一个问号:CoLM是怎么审的稿?

赶紧瞅一眼论文对比……

两篇论文的比较

先浅看一眼两篇论文的摘要对比。

谷歌DeepMind的论文说的是，tokenization给约束语言模型输出带来了麻烦，他们引入自动机理论来解决这些问题，核心是避免在每个解码步骤遍历所有逻辑值（logits）。

而“原告”的说法大致是:

提出了一个高效框架，通过在语言模型的词汇表上构建索引，来大幅提升约束文本生成的效率。简单来说，就是通过索引避免对全部逻辑值的遍历。

同样“不依赖于具体模型”。

方向上确实大差不差，我们还是接着来看看更多详细内容。

我们用谷歌Gemini1.5Pro分别总结了两篇论文的主要内容，并接着让Gemini来比较两者的异同。

对于“被告”谷歌这篇论文，Gemini总结其方法是将detokenization重新定义为有限状态转换器（FST）操作。

将此FST与表示目标形式语言的自动机组合，这种自动机可以用正则表达式或语法来表示。

通过以上结合，生成一个基于token的自动机，用于在解码过程中约束语言模型，确保其输出的文本符合预设的形式语言规范。

此外，谷歌论文中还进行了一系列正则表达式扩展，这些扩展通过使用特别命名的捕获组来编写，显著提升了系统处理文本时的效率和表达能力。

而对于“原告”论文，Gemini总结其方法的核心是将文本生成问题重新定义为有限状态机（FSM）之间的转换。

“原告”的具体方法是:

利用正则表达式或上下文无关文法构建FSM，并将其用于指导文本生成过程。

通过构建词汇表索引，高效地确定每个步骤中的有效词，避免遍历整个词汇表。

Gemini列出了两篇论文的共同点。

至于两者的区别，有点像前头那位网友说的，简单总结就是:谷歌将词汇表定义为了一个FST。

前面也说到了，谷歌在“Related work”中将原告论文列为“最相关”的一项工作:

谷歌认为两者的差异在于，Outlines的方法基于一种特制的“索引”操作，需要手动扩展到新的应用场景。相比之下，谷歌使用自动机理论彻底重新定义了整个过程，使得应用FSA和泛化到PDA变得更加容易。

另一个区别是，谷歌定义了扩展以支持通配符匹配，并提高了可用性。

谷歌紧接着在介绍下面的两项相关工作中，也都提到了Outlines。

一项是Yin等人（2024年）通过增加“压缩”文本段到预填充的功能，扩展了Outlines。

另一项是Ugare等人（2024年）近期提出的一个系统，名为SynCode。它也利用FSA，但采用LALR和LR解析器而非PDA处理语法。

但吃瓜群众们显然不是很买账:

网友:这事儿不罕见…

这件事一发酵，不少网友都怒了，抄袭可耻，更何况“科技巨头剽窃小团队的工作成果不是第一次了”。

顺便一提，布兰登和雷米发布原告论文的时候都在给Normal Computing远程工作，这家AI Infra公司成立于2022年。

哦对了，Normal Computing的创始团队有一部分就来自Google Brain……

另外，布兰登和雷米现在合伙出来创业了，新公司名叫.txt，官网信息显示，其目标是提供快速可靠的信息提取模型。并且官网挂出的GitHub主页，就是Outlines仓库。

说回到网友这边，更让大家伙儿生气的是，“这种情况已经变得普遍”。

一位来自荷兰代尔夫特理工大学的博士后分享了自己的遭遇:

还有一位美国东北大学的老哥更惨，这种情况他遭遇过两次，下手的还都是同一个组。并且对面那位第一作者还给他的GitHub加过星标……

不过，也有网友表达了不同的意见:

对此，雷米怒怼:

布兰登老哥也表示yue了:

瓜就先吃到这里，对此你有什么想法?不妨在评论区继续讨论~

两篇论文戳这里:

谷歌DeepMind论文:https://arxiv.org/abs/2407.08103v1

原告论文:https://arxiv.org/abs/2307.09702

参考链接:

[1]https://x.com/remilouf/status/1812164616362832287?s=46

[2]https://x.com/karan4d/status/1812172329268699467?s=46

[3]https://x.com/brandontwillard/status/1812163165767053772?s=46

免责声明：本文由用户上传，如有侵权请联系删除！

标签：

上一篇:Kimi豆包，最近都盯上了浏览器

下一篇:最后一页

猜你喜欢

南方电网将投资1953亿元推进电网设备大规模更新

台积电规划建立FOPLP小量试产线

盐津铺子：二季度收入有望实现环比增长

广州地区国有行将首套房利率降至3.2%

马士基推出从中国至孟加拉国的SH3航线

劳埃德银行集团据悉正调整差旅政策以削减成本

我国将从多方面推动专利开放许可制度高效运行

波司登在哈尔滨成立科技与营销新公司

东莞证券：电梯媒体在下沉市场仍有广阔发展潜力

BOE C100系列智慧一体机新品发布

摩根大通将黑石公司目标价上调至101美元

恒指午间休盘跌1.39%，恒生科技指数跌2.44%

最新文章

谷歌DeepMind被曝抄袭开源成果，论文还中了顶流会议

中国女篮即将出发巴黎备战奥运全员集结，冲刺奥运梦想

三次赞助欧洲杯势能强劲海信实施战略升级加速全球化

dm2是什么单位（d是什么单位）

磷虾油早上吃还是晚上吃（磷虾油）

人教版数学六年级上册课本（数学六年级上册课本）

萌学园第四季大结局全都牺牲（萌学园第四季大结局）

Kimi豆包，最近都盯上了浏览器

医生提醒勿盲目跟风晒背三伏天养生正当时

苍狼是什么狼（狼灭什么梗）

电脑音量控制打不开了.怎么办呢电脑音量控制打不开了.怎么办

四月是你的谎言宫园薰说的话四月是你的谎言语录宫园薰

科目三可以在外省考吗科目三能在外地考吗

嗨呀是什么梗女生说嗨呀什么意思

带置字成语带有置的成语有哪些

打花了？海港17分钟3球逆转国安！武磊传射，9号外援3分钟内双响

行车记录仪obd取电利弊 obd接口可以随便接吗

韩国男歌手组合有哪些人韩国男歌手组合有哪些

奥莱和专柜款式一样吗奥莱和专柜的区别

汽车上door的中文翻译 door的意思是什么车上的

综合头条

谷歌DeepMind被曝抄袭开源成果，论文还中了顶流会议

本周【综合头条】阅读排行

本周热门推荐阅读

乘客示意后车倒车随后发...

中方敦促菲撤走非法滞留...

镇江检查中储粮及江苏中...

知了能吃吗?有什么营养（...

q宠大乐斗招式（q宠大乐...

景德镇摆摊900人抢300个...

台积电规划建立FOPLP小量...

戏腔应该怎么练戏腔怎...

什么app可以看教科书电子...

什么是角平分线的定义 ...

单杠悬垂世界纪录是多少...

龙之谷冰灵技能详解（龙...

晶钢橱柜门样板图片晶...

拜年祝福语一到十手势 ...

劳埃德银行集团据悉正调...