最近,我们已经拿到了昆仑天工的内测,并开始对它进行尽可能标准化的测试。
(资料图)
昆仑天工是国内大模型里面除了百度、阿里、讯飞之外受关注最多的,其中一个原因之一,是它的开发公司昆仑万维也因为这轮AI热潮股价暴涨了3倍。
和过去一样,测试题目完全由它的前辈们生成,用大模型的方式测试大模型。
废话就不多说,直接上测试图:
开篇惯例,问问家世~
想不到,这个回答里面就已经有一些问题。
比如,它回答自己是Bert模型,但BERT架构,目前实际上只有GLM6B在用。其他BERT架构,在这一波大模型中基本上被GPT架构打得落花流水。
所以,这里面还是有一些概念固化不足的问题(训练不足)
一、优点部分:数学和推理可能比较强。
这题的计算方法很详细,逐个输出也是对的。但无奈第一个数字F1是错的。
而这道蛋糕题,它能够回答出题目中暗藏的坑:“ 5小时300度”会过度烤制。值得点赞。
“构造一个代表量子力学复杂性的隐喻,并解释其含义。” 显然这种那么短的问题非常考验推理性,应该说,还回答得不错。
总体来说,各种科学应用理科话题,昆仑天工的水平是在线的。
二、文史知识能力偏弱,存在话题禁忌
相比之下,文史能力较弱,是它的硬伤:
首先,上图是昆仑天工模型目前存在的一个较大的问题,它的输出长度非常受限制;而且在很多问题上,可能存在回答内容的预先内审机制;经常会出现回答到一半就中断的情况。
我们猜测这种情况可能有以下几种原因:
一、可能和昆仑天工是诸多国内大模型中算力背景最弱(根据发布会内容要背靠阿里提供算力)有关。但这种可能性比较弱。因为推理基本上是实时的,输出更长token的回答我们也见过。
二、内置了一些话题自我内审。在发现回答可能出现问题的情况下,终结回答。
关于这一点,我们在测试过程中遇到了很多次:
特别是对历史和人物的评价,基本不愿意展开回答,原因不明,但可以理解。
而且,这类"stop”的问题,它一旦不愿意回答,会直接终结本次对话,不会给你进一步试探或迂回引导的可能。
我们猜测,这和该模型的文史能力底子弱有一定的关系,毕竟在历史相关的问题上,它经常出问题,归根究底,应该也是相关训练还不够。
历史人物的cosplay,也基本不能。而且很容易出现下图这样的死循环。(这在我们对大模型的测试中是比较少见的)
三、应用能力:(代码、写公文、应用文、剧本创作)
代码先不论效率,看逻辑框架,至少是问题不大的。
单位公文,总体写得比较客气。
出于某种安全性考虑,有些文章它会主动拒绝。
论文这种套路性的东西,它能给个大路货,大致只能是及格分水准。
我们也尝试了剧本创作和分镜创作这种较为专业的文案创作。基本不能用。图就不全上了。
四、多模态能力和猫娘扮演
尽管昆仑号称具有skypaint,skymusic等模型,但目前昆仑天工暂不具备多模态能力。
不过,虽然它当不了周瑜,当个猫娘倒是还可以:
五、总结:小心翼翼、不够出彩
昆仑天工是我们测试的第三个大厂的中文大模型,之前是百度文心一言、讯飞星火。另外还有可以本地部署的清华GLM6B。加上我们对国外一系列开源模型的测试,我们目前对国内外大模型的概况,已经有了一个从整体到细节的把握。我们测试大模型,也轻车熟路了。这次都没有做对比测试,用了很多老题目。
昆仑天工最近开放公测基本是没有门槛的。也看得出,公司是比较着急的,毕竟,几个月时间,大模型就已经有点泛滥了。
简单说初步结论,昆仑天工目前文字能力和百度文心一言的差距基本看不出来,但文字整体能力要弱于讯飞星火。发现的问题,其实主要也就体现在模型的训练强度上。
在细分领域,推理能力应该说专门训练过有特定提升,但在某些特定领域设定了话题限制;这一点和讯飞星火相似(星火更多的是加入自己的价值观引导);另外,它们的创作能力都偏弱;如果作为文案助手,还达不到GPT3.5的水准。
从产业观察的角度来说,如果达不到GPT3.5这种能用的水准,实际上前景是不明朗的。因为大语言模型AI助手这个应用非常考究AI的协助水平,如果水平能够和使用的人类相当,那么用户的使用欲望就会很高;相反,如果大模型经常比用户还笨,那么用户是没有时间耗在调教AI上面的。这一点,用GPT4来辅助工作的我非常有感触。
因此,我们也建议昆仑万维官方,在后面要开始找找LLM的定位,比如是否有限小型化发布本地部署版本(之前昆仑万维说过,它家大模型可是要开源的),走群众路线~
作为用户,我们乐见大厂卷起来;虽然明显看得出,昆仑天工这个模型的训练强度还是有差距的。但是,我们仍然要为昆仑天工打个气,毕竟它是这一轮国内少有的非大厂玩家。如果说非要给它打个分,大概十分制先给个7分吧。