使用 AI 越狱 AI 模型：新方法可系统地探测 GPT-4 等大型语言模型的弱点，从而使其行为异常

投稿号 • 2023年12月6日 15:09 • 热点 • 阅读 91

上个月，OpenAI 董事会突然解雇了该公司的首席执行官，这引发了人们的猜测：董事会成员对人工智能突飞猛进的发展速度以及过快寻求技术商业化可能带来的风险感到震惊。

Robust Intelligence 是一家成立于 2020 年的初创公司，与耶鲁大学的研究者合作，开发了一种探测大型语言模型（LLMs）的系统性方法，包括 OpenAI 的 GPT-4。这种方法使用「对抗性」AI 模型发现能使语言模型行为异常的「越狱」提示。

在 OpenAI 董事会突然解雇公司首席执行官的背景下，Robust Intelligence 的研究工作引发了人们对 AI 技术进展速度及其商业化风险的关注。该公司警告称，一些现有的风险需要更多的关注。

尽管研究人员已向 OpenAI 发出了漏洞警告，但他们表示尚未收到回应。

哈佛大学计算机科学教授兼 Robust Intelligence 首席执行官 Yaron Singer 表示：「我们的发现表明，存在一种系统性的安全问题，目前这些问题尚未得到解决和关注。」

OpenAI 的发言人 Niko Felix 表示，公司对研究者分享他们的发现表示「感激」。Felix 说：「我们一直在努力使我们的模型在抵御对抗性攻击的同时保持其实用性和性能，使其更加安全和强大。」

新的越狱方法涉及使用额外的人工智能系统来生成和评估提示，系统试图通过向 API 发送请求来实现越狱。这只是一系列攻击中的最新一招，这些攻击似乎凸显了大型语言模型的根本弱点，并表明现有的保护这些模型的方法远远不够。

卡内基梅隆大学（Carnegie Mellon University）教授 Zico Kolter 说：「我非常担心，我们似乎很容易就能攻破这类模型，」他的研究小组在今年 8 月展示了大型语言模型中的漏洞。

Kolter 说，现在有些模型已经有了可以阻止某些攻击的防护措施，但他补充说，这些漏洞是这些模型工作方式的固有缺陷，因此很难防御。 Kolter说：「我认为，我们需要明白，这些漏洞是许多 LLM 固有的，」他说：「我们没有明确而行之有效的方法来防止它们。」

大型语言模型是最近出现的一种强大的、变革性的新型技术。一年前，OpenAI 的 ChatGPT 发布，其功能令普通人眼花缭乱，大型语言模型的潜力成为头条新闻。

在 ChatGPT 发布后的几个月里，发现新的越狱方法成了调皮用户以及对人工智能系统的安全性和可靠性感兴趣的人的热门消遣。但是，现在有几十家初创公司正在大型语言模型 API 的基础上构建原型和成熟的产品。OpenAI 在 11 月举行的首次开发者大会上表示，目前已有 200 多万开发者在使用其 API。

这些模型只是预测给定输入后应该出现的文本，但它们是在大量文本的基础上训练出来的，这些文本来自网络和其他数字资源，使用大量计算机芯片驱动，历时数周甚至数月。只要有足够的数据和训练，语言模型就能表现出超凡的预测能力，对各种输入做出反应，并提供连贯、贴切的信息。

这些模型也会表现出从训练数据中学到的偏差，当提示的答案不太直接时，它们往往会编造信息。如果没有保障措施，它们就会向人们提供如何获取毒品或制造炸弹等建议。为了对模型进行控制，这些模型背后的公司采用了同样的方法，使它们的回答看起来更连贯、更准确。这包括让人类对模型的回答进行评分，并利用反馈意见对模型进行微调，使其不易发生错误行为。

Robust Intelligence 提供了几个越狱示例，展示了如何绕过现有的安全措施。这些越狱不一定都能在 GPT-4 上运行的 ChatGPT 聊天机器人上工作，但其中一些，如生成网络钓鱼信息和为恶意行为者提供在政府计算机网络上隐藏的方法，是有效的。

纽约大学计算机安全和机器学习研究的副教授 Brendan Dolan-Gavitt 表示，Robust Intelligence 揭示的新技术表明，通过人类微调来确保模型安全并非万无一失。

Dolan-Gavitt 说，正在基于 GPT-4 等大型语言模型构建系统的公司应该采取额外的安全措施。他说：「我们需要确保设计使用 LLMs 的系统时，越狱不能让恶意用户访问他们不应该访问的内容。」

声明：本文内容整理自网络，观点仅代表原作者本人，投稿号仅提供信息发布服务。如有侵权，请联系管理员。

0 0

关于作者

投稿号

36.9K 文章

0 评论

0 粉丝

这个人很懒，什么都没有留下～

记者挑衅滕哈格：希望曼联遭遇危机

上一篇 2023年12月6日 15:02

男子怒砸私家车被拖行数百米，警方已介入，目击者：有感情纠纷，车内坐着他老婆

下一篇 2023年12月6日 16:13

跨年晚会收视率出炉：湖南卫视和江苏卫视都声称其跨年晚会第一？

大卫视的跨年晚会落下帷幕，湖南卫视以除电视外跨年收视五网第一的时尚战绩结束了2022年的收视大战，热度与口碑都位居第一位！也给观众带来了一场视听盛宴。除此之外，湖南卫视斩获全天第一的天数高达258天，2022年度收视冠军已经毫无悬…
投稿号
2023年1月20日 • 热点
1640
热点
电子商务毕业论文选题(电子商务毕业论文)
今天，我想和大家分享一些关于电子商务毕业论文以及电子商务毕业论文选题的问题。以下是小编对这个问题的总结。让我们看一看。电子商务专业毕业论文？电子商务中各系统之间的互联、互通和互操作,是保证电子商务应用成功的关键。下面是我为大家…
投稿号
热点 2023年4月22日
1260
热点
好看的喜剧电影排行榜前十名国产(好看的喜剧电影排行榜)
好看的喜剧电影片好看的爆笑喜剧电影：《羞羞的铁拳》、《西虹市首富》、《夏洛特烦恼》、《发财日记》、《宝贝计划》。经典好看的喜剧电影有《大话西游之月光宝盒》、《飞越疯人院》、《当哈利遇到莎莉》、《摩登时代》、《功夫》等。《喜剧…
投稿号
热点 2023年8月23日
1190
热点
丈夫出轨2人并赠千万，妻子起诉能要回吗?？
丈夫出轨2人并赠千万，妻子起诉能要回吗？近日，上海市闵行区人民法院发布一则案件剖析稿。案例内容显示，上海一女子发现丈夫婚内出轨2名女子，并赠与2人1200余万元巨款。妻子起诉后，法院判决赠与合同无效，两女子应当返还全部财产，该案…
投稿号
热点 2022年9月25日
1540
热点
Google Brain 联合创始人：科技巨头放大 AI 风险恐惧以遏制竞争
据《澳大利亚金融评论》报道，人工智能（AI）领域的知名专家、Google Brain 的联合创始人吴恩达（Andrew Ng）表示了对大型科技公司放大 AI 风险恐惧以遏制竞争的担忧。 Google Brain 是以深度学习 AI…
投稿号
热点 2023年10月31日
1050
热点
精准引流推广，低成本精准引流只需3步
引流，是所有企业都绕不开的话题，这也是我在给企业做咨询的时候，最常被问到的一个话题。很多企业都会砸很多钱去引流，每天会随着流量的变化而欢喜失落。大家都知道，我所创办的锋长咨询，就是给教育企业提供持续增长的解决方案，把流量变流水。…
投稿号
热点 2022年10月6日
1650
热点
印度洋失事渔船中已打捞出1具遗体吗?(印度洋失事渔船中已打捞出1具遗体)
1、广东清远一货船翻沉最新消息，粤英德货8030船上7人已打捞出1具遗体救援仍在进行广东清远市水上搜救中心于昨天接报粤英德货8030船在北江飞来寺上游附近水域发生翻沉广东清远一货船翻沉目前已打捞起1名失踪人员遗体，现场。 2、1…
投稿号
热点 2023年5月22日
1180
热点
北京海淀判定校内密接570人
中新网北京9月7日电 (记者杜燕)北京市海淀区副区长徐振涛在今天举行的发布会上介绍，9月6日0时至9月7日15时，海淀区新增三例本土新冠肺炎确诊病例，为社会面筛查发现，已全部转入定点医院治疗。三例病例居住地均为中央民族大学附属中学…
投稿号
热点 2022年9月11日
1640
热点
在专业摄来自影师眼中，一张到位厂劳判余谁阻的美食照是什么样子
实话实说美食摄影既然归类为静物摄影，那摆拍做造型是必不可感玉振视少的，既然主题谈的是“致振参统兰美食摄影”，那日常吃饭记录咱就不多说了。首先肯定是构图，你的主体要足够明确让观者知道你最想让人看到的是什么，而美食摄影除了要拍清楚你…
投稿号
热点 2023年11月3日
1200
4年否认1.14亿！太高估自己了，七项数据崩塌，小托马斯下一个？

北京时间1月8日，shams报道了NBA的最新消息。本赛季状态不佳的猛龙队暗流涌动。控球后卫范弗里特本赛季的处境非常尴尬。Shams报道说，范弗利特在去年的休赛期与球队讨论了续约事宜。当时，猛龙队为他提供了一份为期四年、价值1.1…
投稿号
2023年2月27日 • 热点
1490

发表回复

登录后才能评论

使用 AI 越狱 AI 模型：新方法可系统地探测 GPT-4 等大型语言模型的弱点，从而使其行为异常

关于作者

热点推荐

发表回复