研究:AI模型仍不擅长生成干净代码 GPT-4的API误用率达62%

投稿号(tougaohao.com)8月30日 消息:近期,计算机科学家对几个大型语言模型在StackOverflow的Java编码问题上的回答进行了评估,结果发现这些模型的代码质量仍然不尽如人意。

研究:AI模型仍不擅长生成干净代码 GPT-4的API误用率达62%

研究人员收集了1208个StackOverflow上的Java编码问题,这些问题涉及24个常见的Java API。然后他们用4个可生成代码的大型语言模型(GPT-3.5、GPT-4、Llama2和Vicuna-1.5)进行了回答,并根据自己开发的API检查器RobustAPI对回答进行评估。RobustAPI旨在评估代码的可靠性,即抵御失败和意外输入的能力,以及承受高工作负载的能力。

加州大学圣地亚哥分校的研究人员测试了 OpenAI 的 GPT-3.5和 GPT-4,以及大型模型系统组织的两个开放模型:meta 的 Llama2和 Vicuna-1.5。他们对这组问题进行了三种不同的测试:零样本,其中输入提示中没有提供正确的 API 使用示例;one-shot-imrelevant,其中提供的示例与问题无关;一次性相关,其中提示中提供了正确的 API 使用示例。

这些模型在零样本测试中表现出的总体 API 误用率如下:

简单的说就是,在零样本测试中,GPT-3.5和GPT-4的API误用率较高,分别达到49.83%和62.09%。

Llama2的误用率最低,只有0.66%,但这主要是因为其大多数回答并不包含任何代码。

在添加不相关示例的一次样本测试中,各模型的误用率有所上升,尤其是Llama2上的升幅最大。这说明一旦生成了更多代码,Llama2的误用问题也显现出来。

对于一次性无关测试,误用率分别为:

而在提供相关示例的一次样本测试中,误用率有所下降,但仍普遍存在,误用率如下:

研究认为,大型语言模型代码生成能力的提升与代码可靠性和稳健性之间存在明显差距。模型生成的代码充其量只保证语义上的正确性,而忽视了意外输入和高负载环境下的稳定可靠性要求。改善这一问题仍有很大的空间。语言模型的代码生成还需要在工程质量上下功夫,而不仅仅追求生成更多代码。

声明:本文内容整理自网络,观点仅代表原作者本人,投稿号仅提供信息发布服务。如有侵权,请联系管理员。

(0)
上一篇 2023年8月30日 18:13
下一篇 2023年8月30日 18:14

热点推荐

  • 意大利富豪榜2023排行榜(意大利富豪排行榜)

    世界杯十大富豪 未来的富豪榜NO.1 梅西和C罗就是如今站在世界足坛顶端的两个人,在收入方面,他们也牢牢占据着前两名。 而唯一能够在“吸金榜”上紧随其后的,就是内马尔。 在2023胡润全球富豪榜上,首次出现体育明星。其中排名最靠前…

    热点 2024年1月24日
    187
  • (一级致癌物槟榔消费者已超1亿)

    槟榔中含有的大量生物碱,这是槟榔主要的活性物质槟榔中生物碱含量最高的是槟榔碱以及槟榔次碱,还有部分多酚 类物质和槟榔鞣质槟榔碱和槟榔鞣质具有细胞毒性遗传毒性致突变性和致癌性通常情况下,口腔黏膜细胞都会自。 这一举动使得这个行业的发…

    热点 2022年9月28日
    142
  • 一岁一礼 一寸欢喜

    1 前不久,有几家人兴冲冲结伴到周边一景区度周末,结果遭遇河里抽水泵漏电事故,导致一人死亡、两人受伤的严重后果。岁月不居,世事难料,前一刻大家还在有说有笑,享受休假和天伦带来的欢乐,转眼间却已有人遭遇不测,诀别亲人。人生没有回放,…

    热点 2022年10月18日
    185
  • mba是什么(mba是什么学历 报考条件有哪些)

    简要回答 MBA是(Master Of Business Administration)的英语缩写,意思是工商管理硕士,MBA是个研究生学位。 不少人在学位教育网站或者教育论坛中,经常会看到mba这三个字母,究竟mba这三个字母代…

    热点 2022年10月11日
    161
  • 网语i的人和e的人是什么意思(网语i的人和e的人是什么意思)

    近日为i做e这个词语上了微博热搜榜,引起大家的热议,一些小伙伴不怎么上网,看到后一头雾水,不知道网语i的人和e的人是什么意思?什么是i人什么是e人?下面小编为大家带来网语i的人和e的人含义介绍,感兴趣的小伙伴一起来看一下 吧。 网…

    热点 2023年4月7日
    160
  • 医院规定到龄不续聘 官方回应 背后的真相让人始料未及

    9月4日电 据陕西省旬阳市人民政府网站消息,近日,旬阳市人民医院“到龄不续聘”引发媒体和网民关注,旬阳市迅速成立联合调查组进行全面调查处理,现将有关情况通报如下: 经调查,2017年旬阳市人民医院制定《聘用人员管理办法》,依据该办…

    热点 2023年9月5日
    120
  • 客房主管查房流程视频(客房主管)

    大家好,今天给各位分享客房主管的一些知识,其中也会对客房主管查房流程视频进行解释,文章篇幅可能偏长,如果能碰巧解决你现在面临的问题,别忘了关注本站,现在就马上开始吧! 客房主管的工作流程是什么? 1,监督检查员工签到情况及员工的仪…

    热点 2023年4月26日
    177
  • 南宫问雅摸过头是什么梗(被南宫问雅摸过头)

    网上关于网络词语的含义咨询一直都是非常火爆的,最近一段时间南宫问雅摸过头这个梗非常火爆,那么南宫问雅摸过头是什么梗?南宫问雅摸过头是什么意思?出自哪里?下面小编为大家带来南宫问雅摸过头梗的含义介绍,感兴趣的小伙伴一起来了解下吧。 …

    热点 2023年8月28日
    249
  • 火锅食材排行榜前十名(火锅食材排行榜)

    火锅什么食物好吃 1、常见好吃的火锅肉类食材一般有:羊肉、香肠、牛肉、猪肉、午餐肉、牛百叶、毛血旺、毛肚等;火锅中好吃的蔬菜有:生菜、菠菜、土豆、莴苣、藕片、金针菇、香菇等;一般好吃的海鲜类食材有:海带结、鲜贝、鱼片、海虾等。 2…

    热点 2023年8月28日
    153
  • 苹果宣布iPhone将支持RCS跨平台消息标准

    极客号(Xqh8.com) 11月17日 消息:随着智能手机的普及,跨平台即时通信已经成为用户的必需。然而由于技术壁垒,iPhone用户一直无法与Android用户进行无障碍的文字、图片、视频通信。这导致iPhone用户之间的iM…

    热点 2023年11月17日
    91

发表回复

登录后才能评论