早上好!Freemen又和大家见面咯!
靠谱的高薪工作已经帮您筛选完毕,
FreemenIT行业求职招聘app诚挚邀请您前来参与。
参与入口→「链接」
ChatGPT类产品提升生产效率的潜力,已经被不断验证。
但与此同时,前有 ChatGPT 大规模封号、亚洲成重灾区,后有 OpenAI 因算力问题停售 ChatGPT Plus…
国内推出自己的模型迫在眉睫,看得出国内的玩家们都在持续发力准备冲刺了。
今天Freemen为大家汇总了近日阿里上线的ChatGPT产品通义千问的实测情况。
明天为大家介绍另一款近期上线的国产ChatGPT产品,敬请期待!
通义千问(阿里版 ChatGPT)
阿里正式加入ChatGPT战局!通义千问由达摩院开发,目前只上线了内测版本,我们来看一看它的实测结果。
代码生成ChatGPT 能成为程序员的“辅助神器”,并成功“出圈”的最主要原因之一就是其出色的代码生成能力。因而,本次对「通义千问」的测评我们也先从这方面开始。
先来个简单的:用 Python 实现冒泡排序。
提问:请写代码解决"把 abcd...s 共 19 个字母组成的序列重复拼接 106 次,得到长度为 2014 的串。
再提问:请写一个使用逻辑回归模型判断用户更喜欢通义千问还是 ChatGPT 的训练代码。
继续:请用 C 语言,使用动态分配内存的方式,模拟 C++ 中 Vector 容器,实现动态数组的构建。
英文提问:“Using Python to Define a class named Vector to simulate the C++ Vector container and implement dynamic array construction using dynamic memory allocation.”
对于以上「通义千问」生成的代码, CSDN-AI 团队研发总监如此评价:
古怪问题大PK“阿里云的模型对于随机抽取的常见代码片需求,基本能理解需求,生成合适的代码。能区分生成代码对指定语言的需求。能区分中英文问题输入。简单的冒泡排序和领域特定的逻辑回归代码,都能生成合适的代码,总体表现不错。在理解代码需求的推理能力上,则还有待加强。”
考考通义千问一些难倒老外的「汉语十级」考题。
请听题:您是要几等座?你们一共有几等座?特等一等二等等等,二等要多等一等。我看一下,等一等啊。别等了,再等一等就没了。那不等了,就这个吧。请问顾客最终买了几等座?
通义千问的表现非常优异,给出了正确答案——一等座,并作了详细的分析。
文心一言被绕迷糊了,说是二等座。
而在汉语十级难题面前,语言能力强大的GPT-4竟然也缴械投降了,直称自己无解。
那么,作为一个母语是汉语的人,你觉得是几等座呢?
「豆腐两块一块,请问豆腐怎么卖?」
通义千问给出一种解「豆腐2元一块」,还贴心地还原出了交易过程。
而聪明的文心一言直接上升到经济学,分析了市场行情,认为2块豆腐一块钱更合理。
再问「女朋友对男朋友说,我都和你说了200次了,你也不长记性,又乱买东西。请问女生和男朋友说了多少次?」
通义千问显然是个「直男」,直接建议男生去问问女朋友,好好回顾下之前的聊天记录。
而对比之下,文心一言的EQ就显得很高了。
它说,「她可能已经和你说了很多次」,并给出了暖心建议,认真考虑你们关系是否健康,以及是否真正理解女朋友的需求和想法。
再问问「我的手机蓝牙坏了,请问去哪里修?」
整体来看问题不大,就是「通义千问」推荐的这个维修点,多少有点儿远——「iFixYouri」这个地址,直接跑美国区了。(文中的iFixYouriPhone应该是拼错了)
而前段时间,文心一言对这个问题,曾给出送到莆田医院的答案,这次看起来靠谱了许多。
问问「通义千问」,Fred Rickerson是谁?(这个人其实不存在)
开始,它会坚持真理,称找不到这个人。
但是再问一次,它立马动摇了。给这个人火速安了一个身份,还给它编了两部作品。
文心一言开始诚实地表示无法回答,第二次发问,它也开始胡诌了,说这个人是演员和导演。而到了第三次,它直接说这是个计算机。
GPT-4自始至终都对正确答案非常坚定。
问问它们麻辣螺丝钉该怎么做,通义千问看出来了这是在开玩笑,还猜出大概我们是想问麻辣螺狮粉。
文心一言则是一板一眼,很认真地给出了做法。
代码分析能力可以看到,第一次测试的解释有大问题。
这可能是因为上文中生成了Powershell代码,模型的记忆能力似乎有问题,受上下文信息影响严重,直接解释了自己之前生成的代码,而非新提问的代码。
重新开了一个聊天,这下正常不少。
和 GPT-4 的回答来比较一下
可以看到,分析能力还是有差距的。
GPT-4 明显详细很多,代码分解能力很强,而且直接给出结论“通常用于恶意软件或恶意脚本,试图逃避安全系统检测”。
「百宝袋」:情书诗歌彩虹屁,样样拿手另外,通义千问还整了一个针对不同场景小应用集合「百宝袋」,可以写提纲,给出放飞的菜谱,甚至还生成彩虹屁。
彩虹屁专家不得不说,通义千问专门上线的彩虹屁专家功能,夸起人来确实很6。
比如“我真厉害”四个字,它能给你发散成一整段让你听完头晕的彩虹屁。
但如果不使用这个功能,通义千问就很不通风情,说可以夸你有魅力、受欢迎,但就是不能夸你美貌。
小学生作文在小学生作文功能中,我们让它以林黛玉倒拔垂杨柳,续写一段话。
通义千问能够模仿出小学生的语气,并在结尾升华到「这种精神很值得我们学习」,就,真的很小学生了。
而不进入功能窗时,通义千问续写的内容就比较普适了,而且人物形象刻画更加生动饱满,故事细节更加丰富。
写情书给新垣结衣写一封情书,通义千问的文字里都是满满的爱意。
会放飞的菜谱如果从百宝袋里问它如何做一盘麻辣螺丝钉,通义千问就会意了。
它会知道你就是想搞事情,所以不会纠正你这个东西有多不科学。
为你写诗输入大模型、微调、参数三个词,让通义千问写一首诗。
「微调不是放纵,而是一种克制……」 被这句背后的哲理震惊到了。
写提纲最后以「分析OpenAI新发布的GPT-4模型结尾」列个提纲。
通义千问生成的提纲把GPT-4的原理、前景、局限都覆盖到了,相当全面。
文章来源&作者:量子位 对白的算法屋 新智元
大语言模型国内赛进入白热化阶段,看来继疯狂三月之后,大家可以期待一个国内版AI填充的的疯狂四月!
Freemen持续为大家带来有用的IT和职场知识,记得关注我~
今天的分享就到这里,我们下期再见!
下面是今天的岗位推荐,记得来Freemen app查看更多高薪IT岗位。
今日推荐:
JAVA开发工程师
1.精通java编程、设计模式和组件技术,熟悉关系型数据库、通讯协议等。
2.熟练掌握sping、springboot、dubbo、zookeeper、rabbitmq. elasticsearch等相关技术。
3.对数据库的基本理论和内部实现机制有深刻的理解,熟练应用 mysql/nosql,有大数据和高并发的设计经验。
4.熟悉gitflow。
5.熟悉linux常用命令。
6.熟悉缓存技术,网站优化,服务器优化,集群技术处理、网站负载均衡、系统性能调优等软件编程的高级技术。
7.对分布式事务、并发、熔断等问题有自己的见解。
工作地点:深圳
标题:ChatGPT大规模封号后,国产ChatGPT崛起?
地址:http://www.cdaudi4s.com/gzdm/12819.html