j9九游会真人但简略度需加强按照官方放出的收成-九游会体育-九游会欧洲杯-九玩游戏中心官网
克雷西 发自 凹非寺
量子位 | 公众号 QbitAI
通义千问版o1来了,照旧开源的!
更阑,通义团队短暂上线推理模子QwQ,参数目唯独32B,在GPQA上打败了o1-mini。
咫尺,QwQ的模子权重已在HuggingFace和魔搭社区上发布,还不错平直在线试玩。
Ollama、Together.ai等大模子平台也赶快跟进,第一时辰告示援救QwQ运行。
还有网友实测发现,对于我方手中的沿途化学野心题,QwQ是除了o1以外唯独能答对的。
此外有网友指出,QwQ预览版参数目唯独32B,这意味着o1水平的推理模子,在腹地就能运行了。
推聪敏力尚可,但简略度需加强
按照官方放出的收成,QwQ、o1-preview和o1-mini在GPQA(科学推理)、AIME、MATH-500(数学)以及LiveCodeBench(代码)四个数据蚁合各有赢输,但举座水平比较接近。
而比拟GPT-4o、Claude 3.5 Sonnet和自家的Qwen2.5,升迁上风就比较理解了。
至于QwQ的本色推聪敏力到底怎么,咱们就拿o1-mini对比着测试一下~
率先是官方展示的沿途逻辑推理题目:
对于这个问题,QwQ用了足足两千多字进行了分析,这是其中的中枢念念路:
之后,QwQ开动了近乎列举式的分析样子,一张一张牌地来判断,但好在最终获取的规模是正确的。
比拟之下,o1-mini的回应就显得特地简略了。
再来沿路过典的逻辑题,未卜先知QwQ又写起了小作文,况兼此次更甚,有4千多字,况兼仍是是主打一个“试”。
经过对列出情况的一一尝试和检讨,一段时辰后获取了终末的正确谜底。
再望望o1-mini,用很简短的笔墨就把问题发挥了,推理后果要高得多。
天然QwQ发挥得详备些不是赖事,但中间的虚伪尝试对于发问者而言就显得有些过剩了。
除了基础逻辑,再来望望QwQ的数学水平怎么,先来几谈考研数学题试试。
第一题对于微分方程,题目是这么的,咱们稍作了编削,条件模子以x=_的相貌输出:
QwQ仍是继承了离题万里的作答样子,整串回应有快要1400字。
不外仔细看会发现,QwQ的中间经过出现了失败,然后又改用了其他的样子。
折腾了一番之后,规模倒也莫得错。
而o1-mini的回应仍是保抓简略。
即使把o1-mini默许不显现的“念念考经过”展示出来,仍是是莫得QwQ的回应那么长。
第二谈题目是线性代数题,这谈题咱们也作念了修改,从采取题改成了平直求A³的迹:
此次比拟之前,QwQ的回应要简略一些,但照旧有上千字,天然规模仍是是对的,o1-mini也仍是保抓简略。
第三谈题对于概率论,情况约略和前边两谈相同,这里就平直上图:
(QwQ方框中的谜底把根号漏了,不外这里是显现问题,从正文看谜底是正确的)
除了这么的纯数学题目,景色式的数常识题亦然检修模子智力的一项贫乏标准。
是以这里咱们采取了沿途数学竞赛AIME的题目:
翻译过来是这么的,测试中咱们亦然用的这段汉文翻译版块:
o1-mini的解法是一种平方念念路,终末规模也对了,而QwQ这边上来先是一大通的陈设,然后试图从中寻找功令。
当发现没找到功令时,还会进行更多的陈设,然则终末找出的功令并不正确,规模天然也就错了(不外方朝上确乎和5的模有关)。
从以上的案例当中不错看到,要是单看正确率,QwQ的阐扬确乎不错和o1-mini同台较量。
但从经过中看,QwQ想一步到位还存在一定难度,还要阅历列举、试错等标准,致使随契机堕入死轮回。
这导致了其规模对于东谈主类的的易读性和o1-mini还存在差距,QwQ需要在这小数上再多校正。
好在QwQ是个开源模子,要是是按token计费的商用模子,这么的输出长度只怕也会让东谈主遮掩而视。
天然对于这么的问题,千问团队自己也特地沉静,示意处于测试阶段的QwQ,确乎存在冗长而不够聚焦的表象,将会在将来作念出校正。
One More Thing除了这些正经题目,咱们也试了试陷坑问题,看下QwQ能不可看出其中的漏洞。
问题是这么的,稳重是不需要:
缺憾的是,QwQ并莫得发现这个要道点,况兼算作念沿途平方的农夫过河问题进行了回应。
不外这也算是大模子的一个通病了,OpenAI的o1在这么的笔墨游戏眼前照样造反不住。
本色上这个问题最早被调遣是在几个月之前了,那时还莫得o1这么的推理模子,大模子着实在这个问题上扫地外出。
咫尺看来,推聪敏力增强后,也仍是没改掉不崇敬读题的舛错啊(手动狗头)。
参考领略:
https://qwenlm.github.io/blog/qwq-32b-preview/体验地址(Hugging Face):https://huggingface.co/spaces/Qwen/QwQ-32B-preview体验地址(魔搭社区):https://modelscope.cn/studios/Qwen/QwQ-32B-preview— 完 —
量子位 QbitAI · 头条号签约
调遣咱们j9九游会真人,第一时辰获知前沿科技动态