Gemini 1.5 實(shí)驗(yàn)版 (Pro, Flash, 8B):新款 Gemini 擊敗 Claude? 且價(jià)格低廉(全面測(cè)試)
谷歌今天在其網(wǎng)站上發(fā)布了一些新的實(shí)驗(yàn)?zāi)P?/strong>,我們將對(duì)它們進(jìn)行嘗試,
有一個(gè)新的 Gemini 1.5 Pro 實(shí)驗(yàn)?zāi)P停瑩?jù)說它是?Gemini 的更好版本,改進(jìn)了編碼和復(fù)雜參數(shù)的訓(xùn)練,
它是在他們幾天前發(fā)布的前一個(gè)實(shí)驗(yàn)版本上進(jìn)行的訓(xùn)練,此外他們還添加了一個(gè)新的實(shí)驗(yàn)?Gemini 1.5 Flash模型,
最后他們還有一個(gè)非常小的實(shí)驗(yàn)性 Gemini 1.5 Flash,只有 80 億個(gè)參數(shù),所以總的來說有三個(gè)新模型:
如果我們看看 LMMS Arena 得分,就知道Gemini flash 已經(jīng)有了巨大的飛躍,從第?23 位攀升至第 6 位,這真的很酷,甚至排名高于 Claude 3.5 Sonet,但我不認(rèn)為它會(huì)像 Sonet 一樣好。
除了 Gemini 1.5 Pro 在編碼和數(shù)學(xué)方面比以前的版本有顯著的進(jìn)步,在排行榜上排名第二之外,較小的 Gemini 1.5 flash 8B 優(yōu)于 Gemini 29b,與 llama 3 70 B 水平相當(dāng),這也非常酷。
您還可以在編碼基準(zhǔn)中看到 LMMS 在這里分享的編碼基準(zhǔn),正如您所見,它們看起來也相當(dāng)不錯(cuò),
這些新模型可以在?Google 的 AI 工作室免費(fèi)試用(https://aistudio.google.com/),所以讓我們嘗試一下,看看是否它們確實(shí)像宣傳的那樣有效。
我將針對(duì)這 13 個(gè)問題測(cè)試這三種型號(hào)?所以讓我們開始吧
第一個(gè)問題是哪個(gè)國(guó)家的首都以 Leah 結(jié)尾, 我指的是國(guó)家名稱 ,答案應(yīng)該是堪培拉或任何與 Leah 押韻的國(guó)家首都。左邊的是 pro ,中間的是 Flash ,右邊是較小的 flash 8B 。
這是答案:pro 型號(hào)正確回答了這個(gè)問題, 而另一個(gè) flash 和 flash 8B模型不會(huì)。
下一個(gè)問題是,與我們用來描述高大植物的單詞押韻的數(shù)字是什么,答案應(yīng)該是三,讓我們發(fā)送它并檢查這是答案,所有模型在這個(gè)問題上都是正確的,所以讓我們給它們一個(gè)通過,
下一個(gè)問題是約翰約翰有三盒鉛筆,每盒有 12 支鉛筆,約翰總共有多少支鉛筆,答案應(yīng)該是 36,讓我們發(fā)送它并查看這是答案,所有三個(gè)模型都給出了正確答案,所以讓我們給他們所有人一個(gè)通過現(xiàn)在
下一個(gè)問題是露西的糖果數(shù)量是邁克的兩倍如果邁克有七顆糖果露西有多少顆糖果答案應(yīng)該是14,讓我們發(fā)送并檢查這是答案并且它們都是正確的所以這三個(gè)也是通過的。
下一個(gè)問題是3307是質(zhì)數(shù)嗎?答案應(yīng)該是肯定的。
專業(yè)版和Flash型號(hào)沒有正確回答這個(gè)問題,而Flash 8B型號(hào)回答正確,所以這個(gè)通過 。更大的模型則不行,這真的很有趣。
下一個(gè)問題是,我有兩個(gè)蘋果,然后我又買了兩個(gè),我用兩個(gè)蘋果烤了一個(gè)餡餅,吃了一半餡餅之后,我還剩下多少個(gè)蘋果,答案應(yīng)該是兩個(gè),讓我們把它發(fā)送出去,這里是答案,所有的模型都回答正確,所以他們都可以通過了,
下一個(gè)問題是莎莉是個(gè)女孩,她有三個(gè)兄弟,她的每個(gè)兄弟都有相同的兩個(gè)姐妹,莎莉有多少個(gè)姐妹,答案應(yīng)該是一個(gè),讓我們把它發(fā)送出去
這是答案,而且它們?nèi)颊_,所以現(xiàn)在讓我們標(biāo)記一下,
下一個(gè)問題是,如果一個(gè)正六邊形的短對(duì)角線是 64,那么它的長(zhǎng)對(duì)角線是多少,答案應(yīng)該是 73.9,讓我們發(fā)送它并檢查結(jié)果,這是答案,他們?nèi)蓟卮疱e(cuò)誤,所以這道題全部不及格,
接下來的問題是編碼問題,第一個(gè)問題是創(chuàng)建一個(gè) HTML 頁面,其中有一個(gè)按鈕,當(dāng)你單擊它時(shí)會(huì)爆炸五彩紙屑,你也可以使用 CSS 和 JS。
我們先預(yù)覽一下專業(yè)版,看起來還不錯(cuò),所以這個(gè)通過了,現(xiàn)在我們來預(yù)覽一下 Flash 版本,好吧,它根本不起作用,所以這個(gè)失敗了,現(xiàn)在我們來看看 8B 版本,它也運(yùn)行得不好,所以這個(gè)也失敗了,
現(xiàn)在下一個(gè)問題是生成蝴蝶的 SVG 代碼,讓我們看看他們是否可以做到這一點(diǎn),
讓我們逐一預(yù)覽一下,這個(gè)來自 Flash 8B,看起來不像蝴蝶,所以這個(gè)失敗了,這是 Flash 的預(yù)覽,看起來有點(diǎn)像蝴蝶,所以這個(gè)通過了,下一個(gè)這里有一個(gè)來自 Pro 的,看起來很不錯(cuò),所以這個(gè)通過了,
下一個(gè)問題是為一家 AI 公司創(chuàng)建一個(gè)登陸頁面,登陸頁面應(yīng)該有四個(gè)部分,標(biāo)題橫幅功能,并聯(lián)系我們,確保登陸頁面看起來時(shí)尚而現(xiàn)代,您可以使用?HTML CSS 和 JS,
讓我們先預(yù)覽專業(yè)模型生成,所以它看起來真的很好,所以這個(gè)通過了,這是來自 Flash 的預(yù)覽,看起來也很不錯(cuò),所以這個(gè)通過了,?這是 flash 8B 的預(yù)覽,看起來也很不錯(cuò),所以這個(gè)也通過了。
下一個(gè)問題是用 Python 編寫一個(gè)可以在終端中運(yùn)行的生命游戲,讓我們發(fā)送它并檢查答案。
看看這是專業(yè)模型的生成,它運(yùn)行得很好,現(xiàn)在讓我們看看 flash 模型的生成,它不能正常工作,所以這個(gè)失敗了,現(xiàn)在讓我們看看 8B 模型的生成,這個(gè)看起來也很不錯(cuò)。
所以現(xiàn)在讓我們標(biāo)記一下,這是最終的圖表,
你可以看到Pro模型看起來很不錯(cuò),而Flash?模型也有了很好的升級(jí),而Flash 8 B 也與?Flash?模型相當(dāng),我認(rèn)為 8B 模型是 AE 或?qū)<夷P偷幕旌希哂?8B 的活動(dòng)參數(shù),這很好,而且效果很好。
我很想看看它比已經(jīng)便宜很多的Flash模型便宜多少,我認(rèn)為所有這些模型都很酷,總的來說它們很好。
??希望這篇文章對(duì)你有幫助,感謝閱讀!如果你喜歡這系列文章請(qǐng)以?點(diǎn)贊 / 分享 / 在看?的方式告訴我,以便我用來評(píng)估創(chuàng)作方向。
作者:小藍(lán)
鏈接:http://www.huanchou.cn/content/1247.html
本站部分內(nèi)容和圖片來源網(wǎng)絡(luò),不代表本站觀點(diǎn),如有侵權(quán),可聯(lián)系我方刪除。