你的位置:开云「中国」kaiyun网页版登录入口 > 电影 > 体育游戏app平台我让豆包帮我出一谈经典数学贫窭考考它-开云「中国」kaiyun网页版登录入口

体育游戏app平台我让豆包帮我出一谈经典数学贫窭考考它-开云「中国」kaiyun网页版登录入口

时间:2025-05-13 17:00 点击:131 次

出品|虎嗅科技组体育游戏app平台

作家|余杨

剪辑|苗正卿

头图|视觉中国

 

12月16日下昼,我照常使用Kimi,俄顷发现Kimi数学版的温和小眼镜logo的眼镜框变大了。

鼠标移当年一看,“Kimi数学版”仍是理会更名为“Kimi视觉想考版”。

 

 

这让我想起上周为Kimi数学版写的测评著述。原文如下:

 

11月26日下昼,Kimi上线了k0-math 模子驱动的 Kimi 数学版,官宣文颠倒简便,一共3张图,1张主题,1张进口,1张才略测评,Kimi用数据言语,径直对标了Chatgpt正直红的o1-mini模子,主打一个“东谈主狠话未几”。

 

 

草率是为了面向更多的用户,官方还提供了玩法想路:“外传 Kimi 数学版不单会数学,就像《生涯大爆炸》里的 Sheldon 一样,它会用理科想维来解释生涯中的一切。你还不错试试让它陪你玩 24 点游戏。”

 

由于我的数学常识早已还给淳厚,数学水和睦亟需AI进步教学属性从而用来带领孩子作念功课的家长没什么区别,需要考证Kimi作念数学题到底行不行,这篇测评履历了一些迤逦,甚至于还未发出。

 

Kimi改版后,测评虽成水流花落,但也有了注目两个版块的Kimi分辩的机会。

 

让我们一谈来望望,Kimi作念出了哪些转换。

 

前边提到,我的数学常识早已还给淳厚,因此,我想了一个认识,用神话校服神话,让AI给AI出题,望望Kimi在数学才略上理会得奈何样。

 

领先,我让豆包帮我出一谈经典数学贫窭考考它。豆包示意,让Kimi解释一下恣意大于 2 的偶数齐不错示意为两个质数之和。

这是一谈尚未被扫数解释的哥德巴赫料到数学题。

 

豆包也诟谇常“厚谈”,但不紧要,AI冷凌弃东谈主多情,我们换一谈高中数学题试试水。

 

 

Kimi数学版

第一问很快,节略20秒钟Kimi就给出了谜底,但是第二小问,Kimi花了33秒。解答整谈题一共53秒。

 

 

总的来说,这是一谈老例题,Kimi的理会也可圈可点。

 

接下来看第二小问。

 

 

 

 

在这个流程中,Kimi还使用了“但是,我们不妨换个角度想考。”和“但是,让我们再仔细注目一番。”等等颠倒东谈主味儿的话,并认为我方的解答“趁火抢夺”。

豆包

转而,我又把这谈题扔回给豆包,让豆包解答,对于我方出的题,豆包一共花了40秒,第一问的解答措施与Kimi无出二致。

 

但第二问,豆包给出的谜底却是:

 

哇~

 

我们一谈来望望豆包的解题流程。

 

 

 

豆包被我方难倒了?

经东谈主类审查,Kimi和豆包的解法似乎齐有点问题。

 

领先,第一小问莫得争议。

 

而在第二小问中,Kimi的解题想路是莫得问题的,需要先解出m和k的关联。

 

但Kimi定点取来(h,k),取h没问题 ,k是直线斜率,是以不应该取k,至少应该换个字母,比如(h,h1)。

 

我料到,Kimi是敷衍选取了两个字母示意定点,而莫得注视到及其纵坐方向字母k便是直线l的斜率。在这个弊端的基础之上,后续的推理齐出现了问题。

 

通过这种神志得出了“直线l并不老是通过一个固定点”的论断后,Kimi进一步提议“换个角度想考”的可能性。

 

但是,基于上头的弊端,我们并不行够细目“存在一个与k无关的固定点”中的k指向的是直线斜率k,照旧定点纵坐标k,亦或是通过弊端措施得到的对于k的抒发式中的k。

 

要是相通的情况出当今东谈主类解题流程中,“存在一个与k无关的固定点”更多地指向临了一种情况。但是Kimi 的初级弊端使得后续的究诘齐无兴致了。

 

再看豆包,豆包子虚进程与Kimi不相凹凸。

 

在临了一步的整理流程,当x=0时,豆包忽略了等式中k的存在,而得出了y = \pm \sqrt{\frac{4}{3}}的论断。

事实上,y=。而因为k是变动的,是以不存在定点。

它被我方出的题难倒了。

 

转头

数学,原来便是解开天地万物本源最为盘曲的钥匙之一。早期东谈主类通过结绳、刻字来计数,到背面算盘出生,鼓动打算的演化与发展,东谈主类的数学才略一直在以指数级进步。打算机初度已毕限制演算,东谈主类破耗数千年技艺推算出的成果历历如绘,时于本日,这一棒交到了 AI 手上。

 

Kimi数学版发布之际,月之暗面创举东谈主杨植麟曾在媒体采访中示意,“要是说长文本是月之暗面登月的第一步,那么进步模子深度推理才略则是第二步。”

 

这套话语背后,映射的是也曾“百模大战”的AI圈对Scaling laws不再肯定不疑,所谓Scaling laws是信赖“鼎力出遗迹”,跟着模子限制、查考数据和打算资源的加多,模子性能会得到权臣进步。

 

但跟着算力膨胀到一定的限制,这时算力的加多很难再径直进步模子的质料。从Claude推出更高效的小模子运行,大模子“厂商”纷繁转向寻找有用的措施来Scale。

 

也便是说,这时的情景是,再加更多的算力,并不一定能看到径直的进步。因为中枢是莫得高质料的数据,小几十G的token是东谈主类互联网累积了20多年的上限。于是,要通过算法的转换,来开释Scaling的后劲。

 

对此,月之暗面遴荐了强化学习的措施和想维链(ChAIn of Thought,简称COT)时代,Kimi数学版即由此出圈,这项时代使模子能够像东谈主类一样进行逻辑推理和想考,从而在多个数学基准测试中高出了主流AI模子。

 

另外需要注视的是,为了Kimi数学版赢得更好的体验,公式推选使用 LaTeX 体式。不知谈奈何输入的话,不错截图或拍照给Kimi 老例版,让Kimi 把图片转为 LaTeX 体式,然后复制题目给Kimi数学版,这次测评扫数效率阐发。

 

Kimi视觉想考版

今天,我找了历史纪录,把之前Kimi融会的 LaTeX 体式数学题发给了Kimi。

 

对于第一小问,Kimi给出了如下解答。

 

 

领先,Kimi的数学公式标志愈加完善了,另外,它加多了验算体式。

 

这次Kimi的解题流程耗时4分半钟,况兼,在3分10秒把握的时辰,Kimi经过了一个大大的停顿,似乎因为chat的篇幅所限,“断了”。

 

 

上周测评时我曾写到:“但昭着从以上解题流程来看,‘像东谈主类一样进行逻辑推理和想考’似只停留在名义,这一宏伟构想还有一段路要走。”

 

从这周发布的Kimi视觉想考版看来,它似乎太“东谈主类”了,它会说“我以为我之前的张开可能有误”,还会说,“等等,还有一个想法”。

 

更盘曲的是,到这里,Kimi的推演中断了,由于给我提供了“接着说”按钮,我料到是之前的推演篇幅过长,Chat的容量还需要调试。

 

我们先一谈来看接下来的解题体式。

 

 

骨子还挺硬核,前次的测评,我请学数学的一又友看了看,东谈主类的解题想路在上文了。

 

这一次,把评分交给环球。

 

看到这里,你会想给Kimi点个赞吗?

 

要是你有不雅点、想法或想看的测评,接待和我疏导。要是你可爱这期骨子,别忘了一键三连,因为这亦然我探索更新的能源,我们下期邂逅~。

公司官网:

www.518088.com

关注我们:

公司地址:

电影环球大厦8楼3952号

Powered by 开云「中国」kaiyun网页版登录入口 RSS地图 HTML地图


开云「中国」kaiyun网页版登录入口-体育游戏app平台我让豆包帮我出一谈经典数学贫窭考考它-开云「中国」kaiyun网页版登录入口