12项性能位居第一，中国最接近GPT-4的大模型来了！现已全面开放服务！

投稿号 • 2023年8月31日 21:24 • 热点 • 阅读 122

中国何时会有一个大模型，能以极强的泛化能力，创建各种智能体、成为人类真正的助手?

在各大科技公司卷了半年的生成式AI热潮趋于冷静期的当下，这是一个极其值得思考的问题。

很多人会说，目前可能只有被称为业界标杆的GPT-4才能胜任，甚至对它加以“唯一”这样的头衔。

而与此同时，着眼于国内，即使这半年来各个大模型玩家争先恐后抢着落地，但“需要两到三年才能追赶GPT-4”的声音也是甚上尘嚣。

然而就在最近，一个名为InternLM-123B的国产预训练大语言模型，似乎将这种差距感极大地给拉近了一些。

因为在一场顶尖大模型“同台竞技”中，它的表现实属有些亮眼:

•12项成绩排名第一。

• 综合实力全球第二，部分成绩超越GPT-4。

• 绝大部分性能超越ChatGPT和LLaMa-2-70B。

据了解，这个评测是在全球51个知名评测集（包括MMLU、AGIeval、ARC、Ceval、Race、GSM8K等）、共计30万道问题集合上测试所得到的结果。

而细看评测内容，不难发现在所有的阅读理解、绝大部分推理和常识问答方面，InternLM-123B拿到了绝对的风头。

那么这个国产大模型到底是什么来头?

不卖关子，它正是由商汤联合上海AI实验室等多家国内顶尖科研机构发布的最新大语言模型。

但其实要是追溯一下这个大模型，不难发现在2个月前（6月份），当时参数量为1040亿的InternLM便已经解锁了“首个综合能力超越GPT-3.5-turbo的基模型”的成就，成为当时国内首家在多项权威评测集上超越ChatGPT水平的基模型。

不仅如此，在近日商汤所披露的中期业绩报告中，更是将如此生成式AI技术，落地所带来的“成绩”曝了出来:

如此技术，如此成绩，那么不免让人发出疑问:

会是中国第一个达到GPT4水平的大模型吗?

若想赶超GPT-4，单是在技术上达到或超越它就并非是一件易事。

毕竟即使是人才、资金、算力都兼备的谷歌和meta至今都未能达到它的水平。

而且超强的算力、高质量的数据、正确的训练方法等等，都是一环扣一环，直接会影响大模型性能的好坏。

有人会说，为什么非要做到GPT-4水平呢?用Llama2开源模型不香吗?

那是因为，如果要让GPT-4驱动类似于AutoGPT那样的智能体，打造“工具调用”的可用境界，就必须要依赖强大的基座模型。

在“工具调用”这件事情上，强如GPT-4也只能做到80%的准确率，Llama的准确率只有40%。

△数据来源:《On the Tool Manipulation Capability of Open-source Large Language Models》

再如落地方式上，经久不断的开源闭源之争，亦是抉择的一个难点。

因此，我们不妨从技术实力、落地应用和战略布局等方面，来看下商汤是否是一个值得被期待的“潜力股”。

一看技术实力

若是用一句话来概括商汤在技术上的打法，那便是“日日新大模型体系+SenseCore大装置”。

二者并非是简单的做加法那般叠加，而是之间有着深度融合的那种。

至于其技术实力效果，我们从大模型的迭代速度便可窥知一二。

早在今年四月，商汤便发布日日新大模型体系，成为国内第一批发布大模型的玩家之一;在国内大语言模型之战最白热化阶段，一口气将“生成式AI产品族”和盘托出——

商量（SenseChat）、秒画(SenseMirage)、如影(SenseAvatar)、琼宇(SenseSpace)和格物(SenseThings)。

它们分别对应的是自然语言交互、AI文生图、数字人、3D大场景重建、3D小物体生成这五个主流的生成式AI应用。

时隔仅仅两个月（今年6月），商汤再次联合上海人工智能实验室发布InternLM-104B版本，并且当时在三个全球权威测评基准中(MMLU、AGIeval、C-eval)的表现就均已超越ChatGPT。

不仅如此，在大模型的“玩法”上，商汤也是国内众多玩家里最早引入“工具调用”的选手之一。

例如知识库挂载，实现了无需训练，便可快速融合知识生成;搭配企业知识库可以快速解决相关领域问题。

再如InternLM-Chat-7B版本，也是在这种“玩法”之下，成为了第一个具有代码解释能力的开源对话模型。

能够根据需要灵活调用Python解释器等外部工具，在解决复杂数学计算等任务上的能力显著提升;此外，该模型还可通过搜索引擎获取实时信息，提供具有时效性的回答。

并且从第三方对于大模型掌握工具能力的评估结果来看，InternLM-Chat-7B也是领先于主流“选手”。

在此之后，商汤大语言模型的发展，也就来到了我们最开始所提到的InternLM-123B，是仅次于GPT-4，综合实力位居全球第二的水平。

所以现在把发展路径中的几个重要迭代时间节点拎出来就是:四月→六月→七月→八月。

不得不说，快，着实是快。

在与商汤联合创始人兼大装置首席科学家林达华交流过程中，我们了解到如此迭代速度的背后还有一个“杀手锏”——数据处理。

这里所指的并非只是数据的总量，商汤更侧重的是足够强、高吞吐量的数据清洗能力。正如林达华所述:

数据清洗的过程，犹如调制配方的实验，需要不断试错、不断重复，甚至从头再来。这个过程是每家训练大模型的公司都无法避免的过程，没有捷径可走。

OpenAI在无数场合都介绍过GPT4训练的经验，但从未公开过数据清洗的经验，这可谓是训练大模型的顶级机密。

商汤在数据清洗的过程中投入了上千块GPU的算力，并建立起大量系统化、工程化的途径来进行数据配方的试错，可以迅速发现大数据库中的有效数据再到小参数模型上进行验证。

从4月到8月，商汤花费了非常大的力气做数据清洗，过程中专注于补充和构建有多步骤的推理语料，形成一套非常高效的闭环进行模型的训练，使得模型的推理能力得到了大幅提升。

目前商汤每月能够产出约2万亿token的高质量数据，预计年底高质量数据储备将突破10万亿token，足以支持更加强大的基模型的训练。

通过数据清洗，商汤在中文语料的储备方面达到了一个相当高的水平，是业内领先的能力，因此在知识理解和推理方面都有非常优异的表现。

而如此迅猛的迭代速度和高质量数据清洗，定然是离不开大算力的加持，也就是商汤技术版图中另一个关键——SenseCore大装置。

早在2022年1月，商汤便交付使用了总投资高达56亿元的人工智能计算中心（AIDC），而且是“出道”即成为亚洲最大的AI超算中心之一。

一年前它的算力就已经高达了2500Petaflops，可以轻松应对万亿参数的大模型;而时隔仅1年，这个数值便翻了一倍多，达到了6000Petaflops。

有强大的算力，有高质量数据，加之商汤对于“玩转”大模型多年来沉淀的know-how，也就不难理解为何能拥有如此迅猛的迭代速度了。

二看落地应用

高质量的落地速度，是另一个关键点。

这也是目前趋于冷静的AIGC市场之下，各个大模型玩家所面对的骨感且实实在在的问题。

商汤可以说在这一点上提交了一份生成式AI相关收入暴涨670.4%的高分作业。

这个数据的亮相其实也并不意外，因为商汤在此前的活动中也早已对此有所披露。

例如结合商量2.0和秒画3.0的能力，商汤在移动端给客户带来了多种交互方面的“解法”。

针对信息获取的问答交互、生活场景的知识交互、语言和图像生成的内容交互等等，正因为商汤的大模型拥有轻量化版本，所以可以轻松在移动端上部署。

商汤还基于InternLM的轻量级模型，结合自研推理加速算法，与头部手机芯片厂商建立研发合作，成功实现了大语言模型的手机端实时计算能力。

……

而这仅是商汤将大模型落地应用的一隅，从众多案例来看，也正应了商汤联合创始人、执行董事徐冰的观察:

因此，商汤的落地速度，从某种层面上也可以视为“强技术”与“强需求”之间的双向奔赴了。

三看战略布局

自从大模型热潮以来，一个经久不断的话题便是“开源”和“闭源”。

其各自的优势也是越发的明显:

• 开源大模型:可以促进技术的共享和交流，加速人工智能的发展;避免闭源模式下的技术独霸和垄断，促进市场的公平竞争。

• 闭源大模型:可以保护知识产权，为公司带来经济效益;提高公司的核心竞争力，为公司在市场中占据优势地位。

但二者之争也是进展地如火如荼，国外大模型巨头亦是如此，最为典型的便是meta正在以开源LLaMa系列来挑战 OpenAI的地位。

在这个关键问题上，商汤的战略布局与它们截然相反——不做选择题，都要。

例如在开源方面，商汤与多家科研机构合作支持和推进AI开源平台建设，InternLM-7B的部分训练数据、训练代码及基模型权重已经向学术界及工业界免费开源，并支持免费商用。

而在闭源方面，商汤目标打造具有竞争力且好用的“基座模型”，如同英伟达卖“硬的铲子”，商汤希望通过“软的铲子”，支持上万个潜在行业大模型的需求，真正解决行业痛点。

正如林达华表示:

与此同时，商汤还非常看重基模型的能力，因为在它看来，只有把基模型做得足够强，才能应对碎片化极高的市场需求。

这也应了徐冰的想法:

……

总而言之，有实力、有落地、有布局，商汤能否解锁“成为中国第一个达到GPT-4水平的大模型”，是值得期待一波了。

商汤刷新了自己

最后，我们再回到商汤本身。

若是要用一句话来评价商汤这次交出的“成绩单”，或许就是:

曾几何时，大众和市场对于商汤的印象可能依旧是停留在“AI视觉技术公司”这个标签上。

但也正是这样的一个起点，如果站在当下这个时间节点回首，或许正应了现在非常流行那句话:命运的齿轮开始转动了。

现在大模型所需要的多模态技术，不论是自然语言处理，还是图像处理等，商汤已经早早涉足且深耕;现在大算力上的“一票难求”，商汤也是早早布局打造AIDC，为日后的大装置做好了充足的铺垫。

而且商汤更是在ChatGPT引爆AIGC大热潮之前，便已经在大模型领域着手研发。

并且在2019年，商汤便使用上千张GPU进行单任务训练，推出了10亿参数规模的视觉模型，并实现了当时业界最好的算法效果。

后来在2021年到2022年期间，商汤训练并开源了30亿参数的多模态大模型书生。

而当热潮退去，市场迎来落地大考之际，商汤又能将长期准备好的一系列的成果通过完备生产要素和生产资料、灵活的“玩法”和布局来应对。

因此，现在的商汤更像是一个新型技术基建平台，时刻在为即将到来且充满变数的未来在做着准备。

总而言之，商汤，是时候需要被重估了。

One More Thing

好消息!商汤大模型应用“商量SenseChat”即日起全面向广大用户开放服务了!

可戳下方链接了解一下:

https://chat.sensetime.com

声明：本文内容整理自网络，观点仅代表原作者本人，投稿号仅提供信息发布服务。如有侵权，请联系管理员。

0 0

关于作者

投稿号

36.9K 文章

0 评论

0 粉丝

这个人很懒，什么都没有留下～

烟台海边现大量蝼蛄虾背后的真相让人始料未及

上一篇 2023年8月31日 21:23

2023年10月6号上高速10月7号下高速免费吗

下一篇 2023年8月31日 21:24

热点
广州石井尾货批发市场地铁几号线(广州石井尾货批发规则)
广州市井尾货批发市场一直都备受关注，常年吸引无数商家前来拿货。该市场的服装货源都是物美价廉的，而部分新手商家对市井尾货批发市场具体位置信息可能不了解，广州石井尾货批发市场地铁几号线？下面给大家分享一份关于广州石井尾货批发市场乘车路…
投稿号
热点 2023年11月16日
1460
热点
德国经济去年实现正增长
德国联邦统计局近日公布的初步统计数据显示，经价格调整后，2022年德国国内生产总值（GDP）比上年实际增长1.9%。德国联邦统计局在声明中表示，尽管遭遇诸多挑战，德国经济2022年依然实现复苏，与新冠疫情暴发前的2019年相比增长…
投稿号
热点 2023年2月7日
1560
热点
93岁老人苦等丈夫70多年，终身未再改嫁，对方却在国外早已再婚
在西安市郊，有一处名叫思夫亭的地方，据说王宝钏当年在此，苦等丈夫薛平贵18年，最终苦尽甘来得以夫妻团聚。而今天的故事里，同样有这么一个饱经风霜的老人，她用尽一生思念，等待了整整70多年的丈夫，结局却令人肝肠寸断！这个老人就是已…
投稿号
热点 2022年10月18日
1780
热点
弹棉花什么意思蚂蚁(弹棉花什么意思)
本文主要讲的是弹棉花什么意思，以及和弹棉花什么意思蚂蚁相关的知识，如果觉得本文对您有所帮助，不要忘了将本文分享给朋友。俗语“ 弹棉花”是什么意思? 指人与人之间的交谈没有新意，多为空话。【原义】：弹棉花，又称“此郑弹棉”、“弹…
投稿号
热点 2023年5月13日
1280
热点
意大利天然气价格暴涨超770%！法国约30%加油站陷入油荒！普京最新表态
意大利国家统计局11日发布了月度经济走势报告。报告认为，能源价格的大幅上涨已经对意大利企业的经营构成了重大风险。数据显示，相比2019年，目前意大利的天然气价格上涨约776%，生产和输配电价格上涨131.5%，汽油价格上涨20…
投稿号
热点 2022年10月14日
1590
热点
常州地铁5号线站点图(常州地铁5号线)
常州市地铁5号线开工时间? 1、常州地铁5号线在2021年的6月正式开工，预计2029年年底完工。常州5号线工程起自西太湖科技城的揽月湾，终于郑陆镇东青，是一条穿越城市中心的斜向放射型线路。 2、常州到金坛地铁在2023年开工。截…
投稿号
热点 2023年7月16日
2530
热点
讲一味君子菜，糖尿病、中暑、目赤、痈肿丹毒、牙痛痱子皆可选用
开门见山，今天，想和你聊一聊药食同源的苦瓜。苦瓜苦瓜，以苦而得名。在广东，也多被人称之为凉瓜。而在粤港澳大湾区一带，苦瓜又被称为“半生瓜”，说的是需要半生才能参透其苦味，才会爱吃此瓜。须知，苦瓜虽苦，却从不会把苦味传给其他食…
投稿号
热点 2022年10月26日
2480
热点
床头婆婆什么意思(床头婆婆是什么神)
今天小编给各位分享床头婆婆是什么神的知识，其中也会对床头婆婆什么意思进行解释，如果能碰巧解决你现在面临的问题，别忘了关注本站，现在开始吧！床头婆婆都是怎么教小孩子的 1、床头婆婆主要是负责保护这些婴儿和小孩子们能够在床上平安的度…
投稿号
热点 2023年5月30日
6540
热点
椰树直播风格沿袭传统，擦边的背后是物化女性，童年滤镜还管用吗?
椰树直播风格沿袭传统，擦边的背后是物化女性，童年滤镜还管用吗椰树集团近日开启了直播带货，但直播间风格却引发了热议，有网友说“椰树一直走在擦边的最前沿”，也有网友认为椰树还是以前熟悉的配方，很有特点。（此处已添加小程序，请到今日…
投稿号
热点 2022年10月9日
1650
热点
异世大陆小说排行榜最新(异世大陆小说排行榜)
异世大陆小说排行榜(至少要前100) 《流星愿》一个异界的魔族之王，为了统一异界大陆而奋斗了几十年，直到人老，活不了多久的时候，都看不到任何让这个愿望成真的可能，最后使用了，魔族皇室流传了几千年却基本没有用过的禁咒，一个召唤术。 …
投稿号
热点 2023年8月7日
1340

发表回复

登录后才能评论

12项性能位居第一，中国最接近GPT-4的大模型来了！现已全面开放服务！

关于作者

热点推荐

发表回复