使用 AI 越狱 AI 模型:新方法可系统地探测 GPT-4 等大型语言模型的弱点,从而使其行为异常

上个月,OpenAI 董事会突然解雇了该公司的首席执行官,这引发了人们的猜测:董事会成员对人工智能突飞猛进的发展速度以及过快寻求技术商业化可能带来的风险感到震惊。

使用 AI 越狱 AI 模型:新方法可系统地探测 GPT-4 等大型语言模型的弱点,从而使其行为异常

Robust Intelligence 是一家成立于 2020 年的初创公司,与耶鲁大学的研究者合作,开发了一种探测大型语言模型(LLMs)的系统性方法,包括 OpenAI 的 GPT-4。这种方法使用「对抗性」AI 模型发现能使语言模型行为异常的「越狱」提示。

在 OpenAI 董事会突然解雇公司首席执行官的背景下,Robust Intelligence 的研究工作引发了人们对 AI 技术进展速度及其商业化风险的关注。该公司警告称,一些现有的风险需要更多的关注。

尽管研究人员已向 OpenAI 发出了漏洞警告,但他们表示尚未收到回应。

哈佛大学计算机科学教授兼 Robust Intelligence 首席执行官 Yaron Singer 表示:「我们的发现表明,存在一种系统性的安全问题,目前这些问题尚未得到解决和关注。」

OpenAI 的发言人 Niko Felix 表示,公司对研究者分享他们的发现表示「感激」。Felix 说:「我们一直在努力使我们的模型在抵御对抗性攻击的同时保持其实用性和性能,使其更加安全和强大。」

新的越狱方法涉及使用额外的人工智能系统来生成和评估提示,系统试图通过向 API 发送请求来实现越狱。这只是一系列攻击中的最新一招,这些攻击似乎凸显了大型语言模型的根本弱点,并表明现有的保护这些模型的方法远远不够。

卡内基梅隆大学(Carnegie Mellon University)教授 Zico Kolter 说:「我非常担心,我们似乎很容易就能攻破这类模型,」他的研究小组在今年 8 月展示了大型语言模型中的漏洞。

Kolter 说,现在有些模型已经有了可以阻止某些攻击的防护措施,但他补充说,这些漏洞是这些模型工作方式的固有缺陷,因此很难防御。 Kolter说:「我认为,我们需要明白,这些漏洞是许多 LLM 固有的,」他说:「我们没有明确而行之有效的方法来防止它们。」

大型语言模型是最近出现的一种强大的、变革性的新型技术。一年前,OpenAI 的 ChatGPT 发布,其功能令普通人眼花缭乱,大型语言模型的潜力成为头条新闻。

在 ChatGPT 发布后的几个月里,发现新的越狱方法成了调皮用户以及对人工智能系统的安全性和可靠性感兴趣的人的热门消遣。但是,现在有几十家初创公司正在大型语言模型 API 的基础上构建原型和成熟的产品。OpenAI 在 11 月举行的首次开发者大会上表示,目前已有 200 多万开发者在使用其 API。

这些模型只是预测给定输入后应该出现的文本,但它们是在大量文本的基础上训练出来的,这些文本来自网络和其他数字资源,使用大量计算机芯片驱动,历时数周甚至数月。只要有足够的数据和训练,语言模型就能表现出超凡的预测能力,对各种输入做出反应,并提供连贯、贴切的信息。

这些模型也会表现出从训练数据中学到的偏差,当提示的答案不太直接时,它们往往会编造信息。如果没有保障措施,它们就会向人们提供如何获取毒品或制造炸弹等建议。为了对模型进行控制,这些模型背后的公司采用了同样的方法,使它们的回答看起来更连贯、更准确。这包括让人类对模型的回答进行评分,并利用反馈意见对模型进行微调,使其不易发生错误行为。

Robust Intelligence 提供了几个越狱示例,展示了如何绕过现有的安全措施。这些越狱不一定都能在 GPT-4 上运行的 ChatGPT 聊天机器人上工作,但其中一些,如生成网络钓鱼信息和为恶意行为者提供在政府计算机网络上隐藏的方法,是有效的。

纽约大学计算机安全和机器学习研究的副教授 Brendan Dolan-Gavitt 表示,Robust Intelligence 揭示的新技术表明,通过人类微调来确保模型安全并非万无一失。

Dolan-Gavitt 说,正在基于 GPT-4 等大型语言模型构建系统的公司应该采取额外的安全措施。他说:「我们需要确保设计使用 LLMs 的系统时,越狱不能让恶意用户访问他们不应该访问的内容。」

声明:本文内容整理自网络,观点仅代表原作者本人,投稿号仅提供信息发布服务。如有侵权,请联系管理员。

(0)
上一篇 2023年12月6日 15:02
下一篇 2023年12月6日 16:13

热点推荐

  • 游戏手机性能排行榜2023前十名(游戏手机性能排行榜)

    游戏手机排行榜? 1、游戏手机排行榜第一名是努比亚的红魔智能手机。努比亚的红魔智能手机拥有以游戏为中心的最佳屏幕而著称,而该系列中的最新款红魔7也是如此。 2、红魔游戏手机专门玩游戏的手机排行,第四款给大家介绍的是红魔游戏手机,该…

    热点 2023年7月22日
    192
  • 又一地宣布:无症状、轻症可正常上班!

    · 安徽芜湖:这些无症状和轻症可正常上班 据“芜湖发布”微信公众号消息,12月19日,安徽省芜湖市新冠肺炎疫情防控暨推进“六稳”工作指挥部办公室印发《关于进一步优化疫情防控措施的通知》。 《通知》指出,随着我市新冠感染率不断攀升,…

    热点 2023年2月13日
    99
  • 父母过世伤心说说(伤心说说)

    今天,我想和大家分享一些关于伤心说说以及父母过世伤心说说的问题。以下是小编对这个问题的总结。让我们看一看。 伤心难过的句子说说心情发朋友圈 伤心难过的句子发朋友圈,有痛苦,有纠结,有懊恼,有悔恨。这里整理了一些小的文案说说,供您参…

    热点 2023年4月27日
    117
  • 手写发票还能用吗_手写发票

    手写发票能用吗 1、可以的。手写发票也是可以报销的。现在对起征点以下的小规模纳税人或者个体工商户,仍然有使用手工发票的。 2、手写发票是可以报销的,只要是合法的发票。一般来说,真实并填写完整、正确的发票和行政事业单位的收据,都是可…

    热点 2023年6月30日
    135
  • 阿里拍卖两架湾流公务机1.23亿成功拍出 博主:飞机状态极佳

    在网上买湾流公务机,这种体验普通人很难拥有,但是看大佬们买,体验竞价过程中的紧张刺激,阿里拍卖平台则给出了这样的福利。 日前,两架湾流公务机上架了阿里拍卖平台,两架飞机分别是湾流G550和湾流G450,起拍价为43,152,600…

    热点 2023年8月25日
    90
  • 日本突发7.4级强震,浪高5米!岸田文雄下令

    @中国地震台网 消息,中国地震台网正式测定:01月01日15时10分在日本本州西岸近海(北纬37.50度,东经137.20度)发生7.4级地震,震源深度30千米。#日本地震#迅速冲上热搜榜第一。 另据共同社报道,据日本气象厅称,1…

    热点 2024年1月13日
    84
  • 第一生育大省也开始催生了 到底是怎么回事

    6月7日,广东卫健委发布《关于进一步完善和落实积极生育支持措施的实施意见》提出,加快建设生育友好省,稳妥有序实施一对夫妻可以生育三个子女政策及配套支持措施,不断深化优生优育及妇女儿童健康服务,完善托育、财政、税收、保险、教育、住房…

    热点 2023年6月9日
    100
  • miss是什么意思的缩写[miss用法总结完美版]

    1、 名词,主要用法有: 表示对女性的尊称。 madam,Mrs,lady,miss用法解析 这些名词均表示对女性的尊称。 madam夫人、太太,女士,小姐。与尊称男人的用词sir相对,多用于对已婚或未婚妇女的礼貌称呼,如店员对女…

    热点 2022年10月6日
    237
  • 请问mba全称是什么?

    工商管理硕士 MBA的全称是工商管理硕士(Master of Business Administration),不同于平常的硕士研究生,该学位是培养能够胜任工商企业和经济管理部门高层管理工作需要的务实型、复合型和应用型高层次管理人…

    热点 2023年5月20日
    102
  • 怎么查核酸检测结果(核酸检测结果怎么查询)

    来源:河南广电-映象网 目前郑州市全员核酸检测正在紧张有序地进行,8月2日10:00起,市民可查询本次核酸检测结果(核酸检测结果展示具有一定延迟,若您未查询到检测结果,请安心等待)。 登录郑好办App,点击首页“核酸检测结果查询”…

    热点 2022年12月19日
    139

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注