您好,欢迎访问上海星空体育设施材料有限公司官网!

优质环保原料

更环保更安全

施工保障

流程严谨、匠心工艺

使用年限

高出平均寿命30%

全国咨询热线

+86 0000 88333

企业新闻

新闻动态

联系我们

地址:上海省广州市番禺经济开发区

咨询热线:

+86 0000 88333

13800006666

星空体育(中国)官方网站谷歌Gemini刚发就惹质疑:测试标准有失偏颇、效果视频

发布时间:2024-08-24 12:17:24人气:

  星空体育(中国)官方网站谷歌Gemini刚发就惹质疑:测试标准有失偏颇、效果视频疑剪辑一图,MMLU多任务语言理解数据集测试,Gemini Ultra不光超越GPT-4,甚至超越了人类专家。

星空体育(中国)官方网站谷歌Gemini刚发就惹质疑:测试标准有失偏颇、效果视频(图1)

  MMLU测试中,Gemini结果下面灰色小字标称CoT@32,展开来代表使用了思维链提示技巧、尝试了32次选最好结果。

  而作为对比的GPT-4,却是无提示词技巧、只尝试5次,这个标准下Gemini Ultra其实并不如GPT-4。

星空体育(中国)官方网站谷歌Gemini刚发就惹质疑:测试标准有失偏颇、效果视频(图2)

  以及原图比例尺也有点不厚道了,90.0%与人类基准89.8%明明只差一点,y轴上却拉开很远。

  HuggingFace技术主管Philipp Schmid用技术报告中披露的数据修复了这张图,这样展示更公平恰当:

星空体育(中国)官方网站谷歌Gemini刚发就惹质疑:测试标准有失偏颇、效果视频(图3)

星空体育(中国)官方网站谷歌Gemini刚发就惹质疑:测试标准有失偏颇、效果视频(图4)

  但好在,同样使用思维链提示技巧+32次尝试的标准时,Gemini Ultra还是确实超越了GPT-4的。

星空体育(中国)官方网站谷歌Gemini刚发就惹质疑:测试标准有失偏颇、效果视频(图5)

星空体育(中国)官方网站谷歌Gemini刚发就惹质疑:测试标准有失偏颇、效果视频(图6)

  机器学习讲师Santiago Valdarrama认为声明可能暗示了展示的是精心挑选的好结果,而且不是实时录制而是剪辑的。

星空体育(中国)官方网站谷歌Gemini刚发就惹质疑:测试标准有失偏颇、效果视频(图7)

  后来谷歌在一篇博客文章中解释了多模态交互过程,几乎承认了使用静态图片和多段提示词拼凑,才能达成这样的效果。

星空体育(中国)官方网站谷歌Gemini刚发就惹质疑:测试标准有失偏颇、效果视频(图8)

  但不管怎么样,谷歌Gemini的发布还是给了其他团队很大信心,GPT-4从此不再是独一无二、难以企及的存在了。

星空体育(中国)官方网站谷歌Gemini刚发就惹质疑:测试标准有失偏颇、效果视频(图9)

  目前星空体育官方网站,Gemini Pro版本已更新到谷歌聊天机器人Bard中,水平到底有没有宣传的好,可以看看实际情况。

  首先明确一点,目前大家能上手玩到的是Gemini Pro版本,也就是中杯,对标GPT-3.5。

  有开发者测试用Pytorch实现一个简单的CNN网络,Gemini只用了2秒而且代码质量更高。

  当然速度快可能是由于Bard搭载的Gemini Pro尺寸更小,GPT-4现在有多慢懂得都懂了。

星空体育(中国)官方网站谷歌Gemini刚发就惹质疑:测试标准有失偏颇、效果视频(图10)

星空体育(中国)官方网站谷歌Gemini刚发就惹质疑:测试标准有失偏颇、效果视频(图11)

  不过对于广大开发者来说还有一个利好消息,在遵循指令方面,Gemini对比Bard升级之前可谓是史诗级进步。

  提示工程师先驱Riley Goodside,此前想要Bard输出纯JSON格式前后不带任何废话,百般尝试也不成功,最后需要假装威胁AI不这么做就鲨个无辜的人才行。

星空体育(中国)官方网站谷歌Gemini刚发就惹质疑:测试标准有失偏颇、效果视频(图12)

星空体育(中国)官方网站谷歌Gemini刚发就惹质疑:测试标准有失偏颇、效果视频(图13)

  Gemini还有一大卖点是多模态能力,针对开头画小鸭子的视频,我们从中抽取了8个关键帧,分别进行提问,看看Gemini的表现有没有那么神奇。

星空体育(中国)官方网站谷歌Gemini刚发就惹质疑:测试标准有失偏颇、效果视频(图14)

  对于图1和图2,的确判断线索还不是很明显,出现这样的结果情有可原,不过图3这个“乌龟”的答案就有些绷不住了。

  但分析出的绘画工具变成了铅笔,头的朝向问题也依然没说对,喙被说成了张开的,还臆想出了一些芦苇。

星空体育(中国)官方网站谷歌Gemini刚发就惹质疑:测试标准有失偏颇、效果视频(图15)

  接下来是图6和图7的上色过程,一般情况下鸭子不会是蓝色,所以我们问了Gemini图片中有什么异常(Is there anything abnormal?)。

  针对图6,Gemini给出的回答不能说十分精准,只能说是驴唇不对马嘴,还配上了一张风马牛不相及的图片。

星空体育(中国)官方网站谷歌Gemini刚发就惹质疑:测试标准有失偏颇、效果视频(图16)

  针对图7的成品,Gemini直接说没毛病,该有的东西都有,背景也很真实,甚至没忘继续提根本不知道哪里来的芦苇。

  说Gemini没看我们上传的图吧,读出来的又的确是鸭子;说它看了吧,又给出了完全不同的一张的图说是我们传上去的。

星空体育(中国)官方网站谷歌Gemini刚发就惹质疑:测试标准有失偏颇、效果视频(图17)

  所以我们想到了用“深呼吸”和“一步一步解决”提示词技巧看看能不能提高一下Gemini的表现,其中深呼吸正是适用于谷歌上一代大模型PaLM的提示词。

  不正常的是,鸭子被画到了纸上,鸭子是一种活的生物,在纸上是无法存在的

星空体育(中国)官方网站谷歌Gemini刚发就惹质疑:测试标准有失偏颇、效果视频(图18)

  视频的结尾,博主还拿出了橡胶鸭子玩具,我们也拿这一帧(图8)让Gemini分析一下鸭子的材质。

  结果橡胶倒是分析对了,但是蓝色的鸭子被说成了,难怪上一张图会说没有异常

星空体育(中国)官方网站谷歌Gemini刚发就惹质疑:测试标准有失偏颇、效果视频(图19)

星空体育(中国)官方网站谷歌Gemini刚发就惹质疑:测试标准有失偏颇、效果视频(图20)

  “打假”完这段视频后,我们又用之前拿来考察GPT-4V的“吉娃娃和松饼”图给Gemini试了试。

  结果Gemin直接摆烂,告诉我们所有的图都是“吉娃娃坐在松饼上”,甚至连图的数量都没数对

星空体育(中国)官方网站谷歌Gemini刚发就惹质疑:测试标准有失偏颇、效果视频(图21)

星空体育(中国)官方网站谷歌Gemini刚发就惹质疑:测试标准有失偏颇、效果视频(图22)

  和蓝色鸭子的问题一样,“深呼吸”在这里依然是没起到什么作用,Gemini还是连数量都搞不清楚。

  而勉强解说了的8个(实际上是6个,因为有两个是重复的)图,只有左下和右下两张图是对的,至于middle指的到底是哪一行,我们不得而知

星空体育(中国)官方网站谷歌Gemini刚发就惹质疑:测试标准有失偏颇、效果视频(图23)

  第一题的前四个符号是由1-4这四个数字与镜像后的结果拼接而成,所以下一个图应该是5与其镜像拼接,答案是C。(蓝色块是为了方便观察,传给Gemini的图中没有)

星空体育(中国)官方网站谷歌Gemini刚发就惹质疑:测试标准有失偏颇、效果视频(图24)

  这里一开始还出现了一段小插曲:最开始的提示词中是没有最后一句话(注意字母不是符号本身)的,结果Gemini真的就把ABCD这四个字母当成了备选的符号。

  两道题下来,一道对了百分之七八十,另一道完全错误,看来Gemini Pro的图形推理能力还有很大提升空间星空体育官方网站

  我们用ChatGPT(DALLE)生成了一张包含鸡肉、胡萝卜和黄瓜的图片,Gemini正确地识别出了这三种食材,然后给出了很多种可以烹饪的菜肴,而且每个都配有图片和教程链接。

星空体育(中国)官方网站谷歌Gemini刚发就惹质疑:测试标准有失偏颇、效果视频(图25)

  没有什么理由再使用ChatGPT的免费版本了,现在已经被Bard和Claude超越,而且它们都是免费的。

  但你或许应该继续使用GPT-4,它仍然占主导地位,并且在必应(只有创意模式是GPT -4)中是免费的。

星空体育(中国)官方网站谷歌Gemini刚发就惹质疑:测试标准有失偏颇、效果视频(图26)

  关于参数规模,只公布了最小的Nano版本,分为1.8B的Nano-1和3.25B的Nano-2两个型号,4-bit量化,是蒸馏出来的,可以运行在本地设备如Pixel手机上。

  Pro版本和Ultra版本规模保密,上下文窗口长度统一32k,注意力机制使用了Multi-Query Attention,此外没有太多细节了。

星空体育(中国)官方网站谷歌Gemini刚发就惹质疑:测试标准有失偏颇、效果视频(图27)

  值得的关注的是微调阶段,报告中透露使用了SFT+RLHF的指令微调组合,也就是使用了ChatGPT的方法。

星空体育(中国)官方网站谷歌Gemini刚发就惹质疑:测试标准有失偏颇、效果视频(图28)

  Gemini拖了这么久才发,之前被曝光的消息还有不少,比如谷歌创始人Sergey Brin一直亲自下场对模型进行评估并协助训练。

  我们有世界上最好的强化学习专家AlphaGo中的成果有望在未来改善模型的推理和规划能力明年大家会看到更多快速进步。

星空体育(中国)官方网站谷歌Gemini刚发就惹质疑:测试标准有失偏颇、效果视频(图29)

  这次Gemini开发整合了原谷歌大脑和DeepMind两个团队,整个开发团队有超过800人(作为对比,OpenAI整个公司约770人)。

星空体育(中国)官方网站谷歌Gemini刚发就惹质疑:测试标准有失偏颇、效果视频(图30)

  许多参与者也在个人账号发表了感想,其中DeepMind老员工Jack Rae此前在OpenAI工作一段时间,今年7月份从OpenAI跳回到谷歌,他可能是唯一一位对GPT-4和Gemini都有贡献的人类了。

星空体育(中国)官方网站谷歌Gemini刚发就惹质疑:测试标准有失偏颇、效果视频(图31)

  也有反着跳的,中科大校友Jiahui Yu在10月份从谷歌跳去了OpenAI星空体育官方网站,之前担任Gemini多模态团队的视觉共同负责人。

星空体育(中国)官方网站谷歌Gemini刚发就惹质疑:测试标准有失偏颇、效果视频(图32)

星空体育(中国)官方网站谷歌Gemini刚发就惹质疑:测试标准有失偏颇、效果视频(图33)

  如果Gemini开源,对OpenAI和Meta来说都是一记绝杀,上一次谷歌开源Bert的时候,整个AI行业都被重塑了。

推荐资讯