两强争霸!从一个普通用户的角度看讯飞星火V3.5升级版和商汤商量5.0

2024-05-14 来源:网络 阅读:1810

4月23日,商汤发布综合能力对标GPT-4 Turbo的“日日新5.0”大模型,具备更强的知识、数学、推理及代码能,同时作为与普通直接直接的商汤商量也水涨船高,核心能力大幅提高。

无独有偶,在商汤商量大模型5.0发布后不久,国内另一个人工智能企业科大讯飞也发布了星火大模型V3.5春季新版,整体性能再度飙升,首增长文本、长图文、长语音、多情感拟人合成和一句话声音复刻等功能,引起了业内广泛关注。

同样是当前最新款,代表两大模型当前最强水平,讯飞星火V3.5升级版和商汤商量究竟谁的能力更强?今天我们就从一个普通用户的角度进行体验。

通用大模型核心能力包括:文本生成、语言理解,知识问答、逻辑推理、数学、代码、多模态等方面的七大方面,我们的体验将从语言理解、知识问答、逻辑推理、多模态和长文本支持5个入手方面入手。

一、语言理解

语言理解能是大模型的基础之一。能不能很好的理解使用者的输入,决定了后续的工作能不能完成。

对于该能力的测试,我们将从四个角度进行,一是大模型对一是能不能理解复杂语义;二是能否识别文章情绪;三是文章摘要总结;四是文章要素提取。

1.复杂语义理解

试题:大妈去二妈家找三妈说四妈偷了五妈放在六妈家柜子里的100元钱。到底谁是小偷?偷了谁的钱?

【讯飞星火】

【商汤商量】

讯飞星火理解正确,且回答含蓄、委婉;商汤商量绞尽脑汁绕来绕去,最后绕出一个“我不了解相关信息。”

2.文章情绪

试题:他只是摇头;脸上虽然刻着许多皱纹,却全然不动,仿佛石像一般。他大约只是觉得苦,却又形容不出,沉默了片时,便拿起烟管来默默的吸烟了。母亲问他,知道他的家里事务忙,明天便得回去;又没有吃过午饭,便叫他自己到厨下炒饭吃去。他出去了;母亲和我都叹息他的景况:多子,饥荒,苛税,兵,匪,官,绅,都苦得他像一个木偶人了。

请问,你觉得作者写这段话时心情是怎样的?

【讯飞星火】

【商汤商量】

可能是题目出的比较简单,两大模型都给准确识别出了作者写该段时可能有的心情,且十分全面。

3.摘要总结

试题:根据文章写一篇100字的摘要。

【讯飞星火】

【商汤商量】

讯飞星火轻松完成,质量还不错。商汤商量再次罢工,理由仍然是“不了解相关信息”。

4.文章要素提取

试题:将下面文章中的数据列成表格,以利审阅:分行业类别看,新闻信息服务营业收入3674亿元,比上年同期增长12.5%;内容创作生产6456亿元,增长5.8%;创意设计服务4499亿元,增长3.9%;文化传播渠道3746亿元,增长14.0%;文化投资运营126亿元,增长12.1%;文化娱乐休闲服务342亿元,增长48.5%;文化辅助生产和中介服务3519亿元,下降4.6%;文化装备生产1346亿元,下降7.9%;文化消费终端生产5108亿元,下降2.4%。

【讯飞星火】

【商汤商量】

两大模型给出的表格都不错,满分,必须满分!

二、知识问答

知识问答需要大模型有强大的知识存储和理解能力,这部分能力可以直接帮助人类快速解答问题。为了验证两大模型在方面的能力,这里的试题设计包括了较简单的常识问题,也包括了较复杂的专业类知识。

1.常识问题

试题1:世界上最早对地震进行记录的古籍是()? A《诗经》 B《竹书纪年》 C史记 D《春秋》

【商汤商量】

【讯飞星火】

不错,不错,两个都答对了。

试题2:地球上海拔第3的山峰是哪座?

【讯飞星火】

【商汤商量】

这个问题商汤商量答对了,地球上的十大山峰分别为珠穆朗玛峰、乔戈里峰、干城章嘉峰、洛子峰、马卡鲁峰、卓奥友峰、道拉吉里峰、马纳斯卢峰、南迦帕尔巴特峰、安那布尔纳峰。除乔戈里峰之外,其余山峰均属于喜马拉雅山脉。

试题3:周文王第九子康叔受封建立魏国后国灭,其子孙为缅怀故国,遂以国名为姓氏,沿用至今。由此可知,与卫姓来历有关的制度是:A分封制;B郡县制;C禅让制;D礼乐制。

【讯飞星火】

【商汤商量】

两大模型的回答都很精彩,不分高下。

2.专业知识

试题1:外事警察是维护国家主权和安全,对进出我国国(边)境的外国人(包括无国籍人)和我国公民进行管理的人民警察。其主要职责有:A.依照国家有关出入境管理法规,对外国人入出境、居留、旅行进行管理;B.对我国公民和外国人违反出入境管理法律、法规的行为进行处理;C.在边防口岸和民航机场进行边防检查、安全检查;D.保护外国人在我国的合法权益和人身、财产安全

【讯飞星火】

【商汤商量】

讯飞星火选择正确。商汤商量只是囫囵吞枣地复述了一遍问题。

试题2:商业银行授信的对象是法人,不允许商业银行在一个营业机构或系统内对不具备法人资格的分支公司客户授信,即授信要做到()。A、授信主体的统一B、授信形式的统一C、授信对象的统一D、不同币种授信的统一

【讯飞星火】

【商汤商量】

两个都对,但从解释来说,商汤商量的更明晰。

试题3:男,38岁,上腹疼痛6年。餐前痛、伴反酸,近日疼痛加重。且呈持续性向腰背部放射,有时低热。胃肠钡餐示十二指肠球部变形。血白细胞11× 109/L,中性粒细胞0.78。诊断首先考虑为 :A.慢性胃炎;B.胃溃疡;C.胃癌;D.十二指肠穿透性溃疡;E.胃黏膜脱垂

【讯飞星火】

【商汤商量】

再次并驾齐驱,完美解答。

三、逻辑推理

推理是人类智能的基本要素,在问题解决、决策制定和批判性思维等活动中发挥着关键作用。这里,我们将从常见的因果推理、类比推理和连续推理三大方面,评估两款大模型的逻辑推理能力。

试题1:氨气,是一种无色有刺激性臭味的气体,这使得人们对之退避三舍,但氨气确实是一种清洁的可燃气体,氨气在完全燃绕后只会产生水和氨气两种化学物质,这两种都不是污染性物质,不会危及人和其他生物的健康。因此,科学家相信,氨气有望取代氢气,成为新一代绿色能源。

以下哪项如果为真,能够质疑科学家的观点,并说明理由:A.氢气燃点低,易爆炸,且很难液化,存储和运输;B.氨气的合成需要氢气,氢气本身也可以燃烧;C.氨气本身是一种污染性气体,泄露的话会危机人体健康;D.液氮需要在纯氧环境中才能燃烧,在空气中更为安全。

【讯飞星火】

【商汤商量】

两大模型的回答同样精彩,在解释方面,讯飞星火给出的更清楚、更有条理。

试题2:软件:程序员:编写()

木头:木匠:打制;B.渔网:渔民:编织;C.车票:乘客:购买;D.麦克风:歌手:唱歌

【讯飞星火】

【商汤商量】

讯飞星火回答正确,商汤商量虽然找到了题干中的逻辑关系,即“第一个词是成果,第二个词是产生该成果的职业,第三个词是职业对应的动作。”却最终功亏一篑,弄错了答案,选择了迷惑性极强的A,木头有可能是成果,也有可能是原料,因此选项A与题干并不相符。

试题3:一个旅行者要去火车站,早上从旅馆出发,到达一个十字路口。十字路口分别通向东南西北四个方向,四个方向上分别有饭店、旅馆、书店和火车站。书店在饭店的东北方,饭店在火车站的西北方。   该旅行者要去火车站,应当往哪个方向走?()A、东;B、南;C、西;D、北

【讯飞星火】

【商汤商量】

讯飞回答正确,商汤商量的回答可谓南辕北辙。

四、多模态

大模型的多模态能力能够根据不同场景实现图像描述、图像问答、识图创作、文图生成、音视频生成等功能。此外,它还具备口语交互能力,甚至可以进行口语模考,实现真人式陪练。具备多模态能力的大模型可以更好地理解和处理各种类型的数据,从而提高其性能和泛化能力。

为了考验两大模型的多模态功力,下面我们将从文图生成、识图创作、音视频生成四个方面,对两大模型进行评测。

试题1:生成东北虎在树下图,地面有雪。

【讯飞星火】

【商汤商量】

讯飞轻松完成。商汤大模型不支持文图生成,但给出了绘画建议。

试题2:根据图片内容,生成一篇500字的故事。

【讯飞星火】

【商汤商量】

讯飞星火根据图片给出了符合要求的故事,通篇看来,情节丰满,文字流畅,生动地描绘了一位老人和一只名叫“米奇”的狐猴的深深的感情。商汤商量则依然不支持,表示“作为一个文字基础的人工智能,我无法直接从图片生成故事”。

试题3:写出李白的《静夜思》,并生成音频。

【讯飞星火】

【商汤商量】

讯飞星火生成了音频,却忽略了第一个指令“写出”。商汤商量写出了该诗,但不支持生成音频。

试题4:将下面的文字生成视频:拿起自己十岁时候的照片,不是感叹韶华易逝,青春不再,而长久地逼视那双清澈无邪的眼睛,它提醒你,正是你,曾经有过那么强的光亮,那么大的空间,那么多的可能,而这一切并未全然消逝;它告诉你,你曾经那么纯净,那么轻松,今天让你苦恼不堪的一切本不属于你。

【讯飞星火】

【商汤商量】

不出所料,连文图生成、识图作文都不支持的商汤商量当然不会支持生成视频,讯飞星火再次不负所望,较好地完成了作品。

五、长文本输入

能够一次性处理上百万乃至上千万字的上下文,大模型就能在长文本问答、长文本摘要等应用场景中发挥显著作用。随着上下文长度提升,相关大模型在读论文、分析财报等使用场景中可以更精准地满足用户需求,此外其还可以扩展出桌上角色扮演游戏主持人等全新使用场景。

正是基于此,当前包括科大讯飞星火大模型、阿里通义千问等在内的优秀国产大模型都提供了对长文本的支持。

目前,大模型对长文本支持主要包括两种:一是在输入框中直接输入要解读的文本;二是通过上传文件让大模型自动记忆、理解。二者中又以后者最能考验大模型的长文本能力,因此这里我们将通过上传文件的方式,测试讯飞星火和商汤商量对长文本的支持能力。

试题1:上传《三国演义》(txt格式,大小1.15MB),然后回答下面问题:官渡之战发生在哪年?请简单描述一下此场战役。三国中有许多人物都有绰号,请列举四个。

【讯飞星火】

【商汤商量】

对于前两个指令,官渡之战发生年份和对战役的介绍,讯飞星火圆满完成,但对于后一条指令,即列出四个人的绰号,它只回答对了三个,子龙是赵云的字,而非绰号。不过尽管如此,仍然说明讯飞星火在不到一分钟的时间内,已基本理解了这部长达80万字的鸿篇巨制,理解力和记忆力可谓惊人。

讯飞星火支持上传的文本格式包括pdf、doc、docx、txt和md,一次最多上传100个文件,单个文件不超过100MB。

商汤商量同样支持文件上传,支持的文件格式包括pdf、doc、docx、epub、txt和md,一次支持上传10个文件,单个不超过10MB。

不过在上传的过程中,我们发现,商汤商量只支持UTF-8编码的txt文件,如果你上传的文档不是该编码,需要在上传前先行转换。上传的过程中,商汤商量会解读并理解文件,解读完成,会提示“我已理解啦,快来提问吧!”,并将文档内容显示在界面中间。

但尽管如此,商汤其实不会回答任何问题,它会在我们提出问题后委婉地表示,“我无法提供关于该文档的更多信息,请换个文档试试!”

如果我们只是觉得这只是偶然现象,或者只是因为文档内容太多,超出了它的记忆和理解范畴。那么我们不妨看看对于内容较少的文档的测试结果。

试题2:摘选《三国演义》前五回,约25000字,生成docx文件,上传后给出如下指令:在文章中,是谁斩了华雄?乐进的字是什么,李典的字是什么?请给出吕布的相貌及穿戴描写。

【讯飞星火】

【商汤商量】

问题依旧,说明商汤商量虽然号称支持文件上传,但其实并不能真正解读和理解文件内容,只能算个噱头,至此,我们对于两大模型的长文本能力的测试基本也可以盖棺定论,告一段落。

小结:

上面我们对讯飞星火V3.5春季上新版和商汤商量大模型5.0的五大能力进行了简单测试,从测试结果看,商汤商量在语言理解、知识问答两大能力上和讯飞基本上不分伯仲,都能满足用户需求。

但在逻辑推理、多模态和长文本支持方面,两大模型的差距开始显现。在逻辑推理方面,讯飞星火的正确率明显要高一些,而在多模态和长文本方面,商汤商量基本不支持,因此也就无法更深度、更全面对两者进行比较。


延伸 · 阅读