Vicuna Makers打造小型AI模型Llama-rephraser,130亿参数、性能媲美GPT-4

极客号(Daydx.com)11月17日 消息:Vicuna Makers的研究团队在构建Vicuna语言模型的基础上,成功推出了一款新型的小型人工智能模型(LLM),该模型在性能上与OpenAI的GPT-4相媲美,仅包含130亿个参数。

这一新模型被命名为Llama-rephraser,由LMSYS Org揭示。尽管规模相对较小,但该模型在主要基准测试中达到了GPT-4的性能水平。这一成就的关键在于团队采用了一种独特的方法:通过改写测试集,即对测试样本进行释义,使模型能够进行泛化并实现高性能。

通过在数据集中改变句子,Llama-rephraser不仅帮助模型记住文本,更能理解其含义。通过用变化的短语提示模型,研究团队验证了模型是否真正理解了材料。结果表明,Llama-rephraser能够返回正确的响应。

Vicuna Makers打造小型AI模型Llama-rephraser,130亿参数、性能媲美GPT-4

这一创新性的方法让这个拥有130亿参数的Llama-rephraser在基准测试中取得了GPT-4级别的成绩,包括涵盖基本数学、计算机科学、法律等多个领域的流行MMLU基准测试,以及人工评估模型代码生成的Humaneval基准测试。

这一研究的最大成就之一是挑战了对语言模型中数据污染的理解。数据污染指的是测试集的信息泄漏到训练集中,可能导致对模型性能的过于乐观的估计,尤其是对于一个只有130亿参数的模型能够达到GPT-4的成果。

在构建Llama-rephraser的研究过程中,他们发现类似CodeAlpaca的GPT生成的合成数据可能导致微妙的污染,这是难以检测的。为了解决这个问题,他们引入了一个名为LLM Decontaminator的新工具,用于量化数据集的释义样本与基准的对比,使开发人员能够估计数据集中释义样本的污染程度,并将其删除。

对于企业而言,这意味着在采用人工智能解决方案时,有必要使模型规模更小,以保持运营成本的低廉。像Llama-rephraser这样性能媲美GPT-4的小型模型的出现,有助于企业在性能和成本之间取得平衡。此外,LLM Decontaminator这样的工具还可以帮助企业完善其现有系统,使当前一代模型得以改进,而无需在开发成本上投入大量资金构建全新的模型。

LMSYS Org在博客文章中呼吁社区重新思考在大型语言模型背景下的基准测试和数据污染,并在对大型语言模型进行公共基准测试时采用更强大的去污染工具。

声明:本文内容整理自网络,观点仅代表原作者本人,投稿号仅提供信息发布服务。如有侵权,请联系管理员。

(0)
上一篇 2023年11月17日 12:15
下一篇 2023年11月17日 12:16

热点推荐

  • 你们的王回来了!《三国杀》重返Steam差评榜第一

    你们的王回来了!《三国杀》重返Steam差评榜第一 第三方统计网站Steam250数据显示,在玩家们“匡扶汉室”的口号下,《三国杀》重回Steam差评第一的宝座,击败了《NBA 2K24》和《守望先锋2》两位强劲的对手。 去年一年…

    热点 2023年10月16日
    92
  • 最多人玩的网络手游(最多人玩的网络游戏排行榜)

    十大网络游戏排行榜2023 热血的格斗游戏一直是男玩家的心头好,在游戏里凭借自己的技术去公平竞技是每个男孩子渴望的事情。这款游戏具有多个职业和转职,玩家们可以选择职业后再随意搭配技能,在精心设计的游戏画面中完成丝滑连击,成为自己游…

    热点 2023年9月20日
    99
  • DOTA21战平Liquid

    北京时间10月15日,TI11小组赛正式打响,首轮比赛本场由RNG对阵LIQUID,作为TI正赛的首场比赛双方都还没有完全进入状态,两队各自出现了一些失误,并最终各胜一局,打成平手。 第一局LIQUID拿出谜团猛犸的双团控后期阵容…

    热点 2022年10月19日
    152
  • 台湾5亿身家高中生尸检报告出炉,右手4个针孔是否为嫌疑人下毒造成尚存疑

    极目新闻记者 李力力 据中时新闻网6月5日报道,台湾身家5亿高中男生赖某,婚后两小时坠亡案,尸检报告上周五已经出炉。台媒曝光称,部分结果与此前法医专家的判断有差距。 高大成发现针孔 图源:中时新闻网 据报道,台“法务部法医研究所”…

    热点 2023年6月6日
    105
  • 官方通报:盒饭异物确为鼠头!

    全文共488字,阅读大约需要1分钟 日前,有网友爆料称在重庆市秀山县中医院盒饭中吃出一块疑似老鼠头的异物,引发关注。 据沸点视频报道,网友称在秀山县中医院食堂买盒饭,在芋头烧鸭这个菜中吃出老鼠头。涉事医院行政办公室工作人员表示, …

    热点 2023年7月2日
    107
  • 最卷修仙小说(十大修真小说排名)

    修真小说排行榜前十名 十大必看修真小说:《一念永恒》、《凡人修仙传》、《魔天记》、《仙逆》、《星辰变》、《神墓》、《不死不灭》、《飘渺之旅》、《无字天书》、《一仙难求》。《一念永恒》作者:耳根。 十大修真小说排行榜为:遮天、莽荒纪…

    热点 2023年11月15日
    87
  • 一往五前 跨信通与你一路同行|喜迎跨信通五周年!

    时光荏苒,岁月如梭, 走过春秋五载! 从2017至2022 这五年,我们一直在改变、在突破 5年,从坠地新生到布局全球的蜕变, 五年,跨信通描绘跨境出海精彩画卷, 五年,跨信通保持初心和使命! 跨信通经历5年难忘历程,坚持以“陪伴…

    2023年2月5日 热点
    130
  • 吴承恩作品票房超59亿 网友:文学魅力感染一代又一代的人

    吴承恩的《西游记》电影票房已经超过59亿元,这一消息引发了热烈的讨论。他的文学作品的价值,不仅在于票房收入,而更重要的是作品所留下的精神财富。 《西游记》不仅是中国古典四大名著之一,还是全球范围内最有影响力的文学之一。它自明代问世…

    热点 2023年11月1日
    93
  • 模糊图片秒转高清图(提高图片清晰度)

    在座的各位是否有过这样的经历? 偶尔间发现了一张不错的图片,正准备保存下来设置壁纸时,结果发现图片模糊、噪点很严重,清晰很是问题。 心想不如去找找原图吧?结果翻遍全网都没找到。就算找到了,却发现放在电脑等大屏设备上,图片清晰度依旧…

    2022年10月7日 热点
    156
  • “阳康”后,出现这些症状,要警惕心肌炎!

    多地第一波遭受感染高峰的新冠感染者已陆续转阴,逐渐回归正常工作、生活。与此同时,“阳康”后的身体状况也被广泛关注和热议,“阳过后小心病毒性心肌炎”等相关话题冲上热搜。感染新冠病毒会引发病毒性心肌炎吗?患病毒性心肌炎后应该注意什么?…

    热点 2023年3月26日
    122

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注