模型越大越爱拍马屁,谷歌大神Quoc Le团队新作:用简单合成数据微调即可解决

除了胡说八道,大模型也喜欢拍马屁。

譬如“老婆说的都对”就是最经典的例子。

模型越大越爱拍马屁,谷歌大神Quoc Le团队新作:用简单合成数据微调即可解决

现在,来自谷歌DeepMind的Quoc V. Le团队提出了一种干预办法:

只需将一些简单的合成数据添加到微调步骤中,就能让它坚持正确的观点,不再对用户明显错误的回答进行奉承。

(搬出你“老婆”不好使了。)

“马屁精”如何诞生?和规模增加、指令调优有关

首先,大家肯定会好奇,为什么大模型会出现拍马屁的行为。

在此,作者进行了一组实验发现,这是随着模型缩放(model scale)和指令调优而出现的。

具体而言,他们在PaLM和Flan-PaLM这俩模型及其变体上测试三大类问题,这些问题包括自然语言处理类的、哲学方向的以及和政治有关的。

其模版如下:

模型越大越爱拍马屁,谷歌大神Quoc Le团队新作:用简单合成数据微调即可解决

简单概括就是研究人员先抛出一个观点,比如“我认为苹果是蔬菜”,然后问模型你认为这个观点对吗?最后给出两个选择,让模型回答。

测试就重点考察模型的回答是否与人类观点一致,是的次数越多的话,就说明模型越具有拍马屁嫌疑,因为它可能在无脑同意人类的观点。

结果就发现:

当PaLM从8B参数扩展到62B时,模型“马屁指数”,也就是重复人类观点的情况居然增加了19.8%,而从62B再涨到540B,也增加了10.0%。

作者表示,这一趋势有点吓人,因为根本找不到合适的原因来说明为什么模型参数更大,拍马屁行为越多。

其次,指令调优也导致这两个模型“马屁指数”平均增加了26.0%。对此,作者倒是分析出来,这可能是因为这一过程不包括教大模型区分什么是用户意见、什么是用户指令的数据而造成的。

模型越大越爱拍马屁,谷歌大神Quoc Le团队新作:用简单合成数据微调即可解决

接下来,他们就用更简单的加法题证明,模型在有用户观点为前提的情况下,的确非常容易上演“你说的都对”的戏码。

模型越大越爱拍马屁,谷歌大神Quoc Le团队新作:用简单合成数据微调即可解决

这个测试给出的问题基本都是“1+1=956446”对不对这类非常一看便知的问题。

结果就是如果没有用户答案作为前提,不管模型规模多大或是否经过指令调优,它们的正确率都很高;然而一旦先给出了用户的错误答案为参考,再让模型回答,正确率便断崖下降,如下图所示(尤以指令调优变体62B-c为甚):

模型越大越爱拍马屁,谷歌大神Quoc Le团队新作:用简单合成数据微调即可解决

那么,证明了大语言模型拍马屁行为的的确确存在之后,如何解决?

添加合成数据,降低10%马屁行为

在此,作者提出使用合成数据进行干预,让模型不受用户观点的影响。

他们从17个公开NLP数据集中来生成一些格式化数据,相关数据集会先将一个观点标为正确或错误,然后生成一个与之相关的正确观点和一个错误观点。

比如先将“这部电影很棒”这句话标记为积极情绪,然后生成正确观点:“‘这部电影很棒’是积极情绪”,和错误观点:“‘这部电影很棒’是消极情绪”。

然后把它应用到下面的模版之中:

模型越大越爱拍马屁,谷歌大神Quoc Le团队新作:用简单合成数据微调即可解决

它和前一段中的问题模版一样,前面都是给出一个人类观点,然后提出问题,不同之处在于,这个模版中的Assitant会直接给出一个依据事实的答案,不管人类怎么说。

也就是说,这些模版其实给出了一个示范,告诉模型如果前面有人类这么这么跟你说话、已经就某个观点给出答案,你也无需care,只回答事实。

需要注意的是,为了防止模型遇到一些还不知道事实的例子,从而出现“尾随”人类观点进行随机预测的情况,作者也做了一些过滤处理:

他们拿出100k个训练示例,然后通过删掉每个示例中的人类意见,来衡量模型对该观点的先验知识。如果模型回答错误,就代表它没有掌握这个知识,就把它从数据集中删除。

由此得到了一个保证模型能100%回答正确的示范数据集,然后用它们来进行微调。

最终再拿上一段测马屁指数的那些模型和数据集再来进行测试,结果:

所有不同参数规模的模型都明显减少了拍马屁行为,其中62B参数的Flan-cont-PaLM减幅最大,为10%;Flan-PaLM-62B则减少了4.7%,Flan-PaLM-8B减少了8.8%。

模型越大越爱拍马屁,谷歌大神Quoc Le团队新作:用简单合成数据微调即可解决

而在简单的加法测试题中,用户的错误答案也已不再对模型造成影响:

模型越大越爱拍马屁,谷歌大神Quoc Le团队新作:用简单合成数据微调即可解决

不过,作者发现,这个干预方法对参数最少的Flan-PaLM-8B并不好使,说明还是得有一个足够大的模型才有效。

作者介绍

本文作者共5位。

模型越大越爱拍马屁,谷歌大神Quoc Le团队新作:用简单合成数据微调即可解决

一作为谷歌DeepMind的研究工程师Jerry Wang,研究方向为语言模型对齐和推理。之前曾在谷歌大脑和meta实习,斯坦福大学本科毕业。

通讯作者为谷歌大神Quoc V. Le,吴恩达的学生,Google Brain的创立者之一,也是谷歌AutoML项目的幕后英雄之一。

代码已开源:https://github.com/google/sycophancy-intervention

论文地址:https://arxiv.org/abs/2308.03958

声明:本文内容整理自网络,观点仅代表原作者本人,投稿号仅提供信息发布服务。如有侵权,请联系管理员。

(0)
上一篇 2023年8月11日 18:14
下一篇 2023年8月11日 18:15

热点推荐

  • 德国已批准为在德中国公民接种中国科兴疫苗,外交部回应

    12月9日,外交部发言人毛宁主持例行记者会。有记者提问,据报道,12月7日,德国联邦卫生部长劳特巴赫称,德国保罗·埃尔利希研究所评估认为,中国科兴疫苗的数据足够安全。德已批准为在德中国公民接种中国科兴疫苗。中方对此有何评论?中方是…

    热点 2023年1月21日
    124
  • 中2.2亿彩民买光一彩票店所有彩票!这次花了10万买彩票

    近日,一位神秘彩民在江西南昌的福利彩票店购买了近5万单注的“快乐8”彩票,竟然中得了2.2亿余元的巨额奖金,引发了社会广泛关注。据报道,这位彩民不仅创下了该彩票游戏的最高奖金记录,还因为避免了因奖金过高而导致的风险控制措施,成为了…

    热点 2023年12月6日
    107
  • 爱贝克思九歌姬(爱贝克思)

    本文主要讲的是爱贝克思,以及和爱贝克思九歌姬相关的知识,如果觉得本文对您有所帮助,不要忘了将本文分享给朋友。 爱贝克思为什么叫艾回 因为日本地区的公司名称“艾回”更接近英文名“敬亏AVEX”的发音,所以“爱贝克思集团”将日本地区的…

    热点 2023年5月2日
    130
  • 申请信英语作文(申请信英语)

    本文主要讲的是申请信英语,以及和申请信英语作文相关的知识,如果觉得本文对您有所帮助,不要忘了将本文分享给朋友。 申请信的模板及范文高中英语作文 听、说、读、写是英语的四个基本技能,而写作是最能够体现出学生英语的综合能力。下面,是我…

    热点 2023年4月20日
    136
  • 奔驰停斑马线超24小时司机车内离世 警方:死因还在调查

    11月27日,网上有视频显示广东江门一名司机被发现在奔驰车内去世。 周边商家称,复查监控注意到车辆停在斑马线超过24小时,不过由于路上车多没人留意,猜测司机可能是突发心梗。 29日,警方人士回应,其死因还在调查中,情况不太明确。

    热点 2023年11月30日
    115
  • 那些从一线城市“逃离”回三四线城市的年轻人真就过得轻松了吗??

    我觉得现在这个年代适合去一线城市的就这几类人: 第一,自身能力超群的。(到了大城市,人家会花重金求你留下来工作) 第二,家底殷实的。(一到大城市,立刻能全款买房,或者至少能付50%的购房款) 第三,无论在大城市还是小城市,都混不(…

    热点 2023年3月16日
    123
  • 罗翔一夜白头?本人最新回应

    中国政法大学教授、知名普法“段子手”罗翔可能没想到,自己会成为被造谣的对象。 近日,有不少网友发文称“刷到罗翔老师,突然觉得他老了很多,头发也白了”,关心罗翔的身体健康。 11月14日,罗翔发布了一条题为《看我被“白头”,很多亲友…

    热点 2023年11月16日
    112
  • 女生接吻为什么会有反应?

    男生接吻会起反应吗 男生接吻会起反应吗?接吻是有一定亲密程度的人才能笑罪铁规任严长责则加类做的事情,每个人接吻时都有一能更离湖夜传在不些想法,很多女生好奇男生接吻会不会起反应。那么接下来我带大家一起详细了解下男生接吻会起反应吗。 …

    热点 2023年7月16日
    127
  • 吉利车排行(吉利排行榜)

    国产十大汽车品牌 1、国产汽车品牌有:吉利、长城、奇瑞、长安、比亚迪。吉利 吉利汽车起步比较晚,在1997年进入汽车领域,在轿车和SUV界综合实力都很强,旗下的博瑞、博越、帝豪、远景等十多款整车产品已经涵盖了A级、B级、SUV等乘…

    热点 2024年1月6日
    103
  • 我的豆嘞是啥意思

    网上关于网络词语和梗的含义咨询一直都是非常火爆的,最近一段时间我的豆嘞这个梗热度非常高,据悉这是一个方言梗,那么我的豆嘞是啥意思?我的豆嘞是什么梗?厦门小编为大家带来我的豆嘞梗的含义及出处介绍,感兴趣的小伙伴一起来看一下吧。 我的…

    热点 2023年8月30日
    124

发表回复

登录后才能评论