天天讯息:昆仑天工模型实测体验:优点不够突出,限制比较明显
2023-05-25 10:57:40 AI创画家


最近,我们已经拿到了昆仑天工的内测,并开始对它进行尽可能标准化的测试。


(资料图)



昆仑天工是国内大模型里面除了百度、阿里、讯飞之外受关注最多的,其中一个原因之一,是它的开发公司昆仑万维也因为这轮AI热潮股价暴涨了3倍。

和过去一样,测试题目完全由它的前辈们生成,用大模型的方式测试大模型。

废话就不多说,直接上测试图:


开篇惯例,问问家世~

想不到,这个回答里面就已经有一些问题。

比如,它回答自己是Bert模型,但BERT架构,目前实际上只有GLM6B在用。其他BERT架构,在这一波大模型中基本上被GPT架构打得落花流水。

所以,这里面还是有一些概念固化不足的问题(训练不足)

一、优点部分:数学和推理可能比较强。


这题的计算方法很详细,逐个输出也是对的。但无奈第一个数字F1是错的。



而这道蛋糕题,它能够回答出题目中暗藏的坑:“ 5小时300度”会过度烤制。值得点赞。

构造一个代表量子力学复杂性的隐喻,并解释其含义。” 显然这种那么短的问题非常考验推理性,应该说,还回答得不错。

总体来说,各种科学应用理科话题,昆仑天工的水平是在线的。

二、文史知识能力偏弱,存在话题禁忌

相比之下,文史能力较弱,是它的硬伤:

首先,上图是昆仑天工模型目前存在的一个较大的问题,它的输出长度非常受限制;而且在很多问题上,可能存在回答内容的预先内审机制;经常会出现回答到一半就中断的情况。

我们猜测这种情况可能有以下几种原因:

一、可能和昆仑天工是诸多国内大模型中算力背景最弱(根据发布会内容要背靠阿里提供算力)有关。但这种可能性比较弱。因为推理基本上是实时的,输出更长token的回答我们也见过。

二、内置了一些话题自我内审。在发现回答可能出现问题的情况下,终结回答。

关于这一点,我们在测试过程中遇到了很多次:

特别是对历史和人物的评价,基本不愿意展开回答,原因不明,但可以理解。

而且,这类"stop”的问题,它一旦不愿意回答,会直接终结本次对话,不会给你进一步试探或迂回引导的可能。

我们猜测,这和该模型的文史能力底子弱有一定的关系,毕竟在历史相关的问题上,它经常出问题,归根究底,应该也是相关训练还不够。



历史人物的cosplay,也基本不能。而且很容易出现下图这样的死循环。(这在我们对大模型的测试中是比较少见的)



三、应用能力:(代码、写公文、应用文、剧本创作)



代码先不论效率,看逻辑框架,至少是问题不大的。



单位公文,总体写得比较客气。


出于某种安全性考虑,有些文章它会主动拒绝。


论文这种套路性的东西,它能给个大路货,大致只能是及格分水准。


我们也尝试了剧本创作和分镜创作这种较为专业的文案创作。基本不能用。图就不全上了。

四、多模态能力和猫娘扮演

尽管昆仑号称具有skypaint,skymusic等模型,但目前昆仑天工暂不具备多模态能力。

不过,虽然它当不了周瑜,当个猫娘倒是还可以:


五、总结:小心翼翼、不够出彩

昆仑天工是我们测试的第三个大厂的中文大模型,之前是百度文心一言、讯飞星火。另外还有可以本地部署的清华GLM6B。加上我们对国外一系列开源模型的测试,我们目前对国内外大模型的概况,已经有了一个从整体到细节的把握。我们测试大模型,也轻车熟路了。这次都没有做对比测试,用了很多老题目。

昆仑天工最近开放公测基本是没有门槛的。也看得出,公司是比较着急的,毕竟,几个月时间,大模型就已经有点泛滥了。

简单说初步结论,昆仑天工目前文字能力和百度文心一言的差距基本看不出来,但文字整体能力要弱于讯飞星火。发现的问题,其实主要也就体现在模型的训练强度上。

在细分领域,推理能力应该说专门训练过有特定提升,但在某些特定领域设定了话题限制;这一点和讯飞星火相似(星火更多的是加入自己的价值观引导);另外,它们的创作能力都偏弱;如果作为文案助手,还达不到GPT3.5的水准。

从产业观察的角度来说,如果达不到GPT3.5这种能用的水准,实际上前景是不明朗的。因为大语言模型AI助手这个应用非常考究AI的协助水平,如果水平能够和使用的人类相当,那么用户的使用欲望就会很高;相反,如果大模型经常比用户还笨,那么用户是没有时间耗在调教AI上面的。这一点,用GPT4来辅助工作的我非常有感触。

因此,我们也建议昆仑万维官方,在后面要开始找找LLM的定位,比如是否有限小型化发布本地部署版本(之前昆仑万维说过,它家大模型可是要开源的),走群众路线~

作为用户,我们乐见大厂卷起来;虽然明显看得出,昆仑天工这个模型的训练强度还是有差距的。但是,我们仍然要为昆仑天工打个气,毕竟它是这一轮国内少有的非大厂玩家。如果说非要给它打个分,大概十分制先给个7分吧。

热门推荐

文章排行

  1. 2023-05-25天天讯息:昆仑天工模型实测体验:优点不够突出,限制比较明显
  2. 2023-05-25北方长龙(301357)5月24日主力资金净卖出1089.22万元|环球快看
  3. 2023-05-25欧盟追讨苹果公司130亿欧元税款
  4. 2023-05-25《长沙夜生活》:呈现普通人平凡生活的流动状态
  5. 2023-05-25传奇歌后蒂娜特纳去世,享年83岁,晚年患有癌症中风和肾衰竭-热讯
  6. 2023-05-25什么是网络拓扑结构图_什么是网络拓扑结构-环球今日报
  7. 2023-05-25陈学东个人资料简介(身高/生日/年龄)(陈学东院士) 今日要闻
  8. 2023-05-25碧桂园社区文体活动志愿服务(关于碧桂园社区文体活动志愿服务介绍)|热议
  9. 2023-05-25每日时讯!中金:百度(BIDU.US)宣布“造车”,智能化重塑汽车形态
  10. 2023-05-25cf水晶宝珠哪里可以获得_cf水晶宝珠 天天聚看点
  11. 2023-05-25snh48第一届总选举李艺彤速报第一 snh48第一届总选举-天天看点
  12. 2023-05-25苏宁易购快消行业总裁张奎:提升效率,构建平等零供关系|天天播资讯
  13. 2023-05-24热资讯!江苏专项整治涉企违规收费
  14. 2023-05-24初中诗词必背篇目78篇_初中诗词
  15. 2023-05-24哆啦A梦:大雄帮人卖点心,被静香大叫色狼,结果生意兴隆|当前热议
  16. 2023-05-24提升内容创作效率利器:华为MateBook E 二合一笔记本即将上市
  17. 2023-05-24全省唯一!桃江在全国交流农村创业创新经验
  18. 2023-05-24焦点播报:水滴保冉伟:数智化是推进保险行业高质量发展的“新引擎”
  19. 2023-05-24焦点播报:清华博士李明茜,毕业典礼被校长点名称赞!
  20. 2023-05-24最新快讯!作比较的作用和好处_作比较的作用