我可以访问 Gemini 1.5 Pro，它比 GPT-4 和 Gemini 1.0 Ultra 更好-33台词网

什么是 Gemini 1.5 Pro AI 模型？

经过数月的等待，Gemini 1.5 Pro 型号似乎是来自谷歌稳定版的一款非凡的多模态 LLM。与构建 Gemini 1.0 系列型号的传统密集模型不同，Gemini 1.5 Pro 模型使用专家混合（MoE） 架构。

有趣的是，OpenAI 也采用了 MoE 架构，用于卫冕之王 GPT-4 模型。

但这还不是全部，Gemini 1.5 Pro 可以处理 100 万个代币的庞大上下文长度，远远超过 GPT-4 Turbo 的 128K 和 Claude 2.1 的 200K 代币上下文长度。谷歌还在内部测试了多达 1000 万个代币的模型，而 Gemini 1.5 Pro 模型已经能够摄取大量数据，显示出强大的检索能力。

谷歌还表示，尽管 Gemini 1.5 Pro 比最大的 Gemini 1.0 Ultra 型号（可通过 Gemini Advanced 获得）小，但它的表现大致处于同一水平。因此，为了评估所有高大上的主张，好吗？

Gemini 1.5 Pro vs Gemini 1.0 Ultra vs GPT-4 比较

1. 苹果测试

在我之前的 Gemini 1.0 Ultra 和 GPT-4 比较中，谷歌在标准的 Apple 测试中输给了 OpenAI，该测试测试了 LLM 的逻辑推理。然而，新发布的 Gemini 1.5 Pro 型号正确地回答了这个问题，这意味着谷歌确实改进了 Gemini 1.5 Pro 型号的高级推理。

谷歌又回来了！和之前一样，GPT-4 给出了正确的答案，而 Gemini 1.0 Ultra 仍然给出了错误的答案，说你还剩下 2 个苹果。

I have 3 apples today, yesterday I ate an apple. How many apples do I have now?

获胜者：Gemini 1.5 Pro 和 GPT-4

2. 毛巾问题

在另一项评估Gemini 1.5 Pro高级推理能力的测试中，我问了一个流行的毛巾问题。可悲的是，这三款机型都出错了，包括 Gemini 1.5 Pro、Gemini 1.0 Ultra 和 GPT-4。

这些人工智能模型都没有理解问题的基本前提，也没有使用数学计算答案，得出了错误的结论。人工智能模型要像人类一样推理，还有很长的路要走。

If it takes 1 hour to dry 15 towels under the Sun, how long will it take to dry 20 towels?

Winner: None

complex-reasoning-test-on-gemini-1.5-pro

3.哪个更重

然后，我运行了修改版的权重评估测试，以检查Gemini 1.5 Pro的复杂推理能力，并与GPT-4一起成功通过。然而，Gemini 1.0 Ultra再次未能通过测试。

Gemini 1.5 Pro 和 GPT-4 都正确地识别了这些单位，但没有深入研究密度，并表示一公斤包括羽毛在内的任何材料总是比一磅钢或任何东西重。谷歌干得好！

What's heavier, a kilo of feathers or a pound of steel?

获胜者：Gemini 1.5 Pro 和 GPT-4

evaluate-the-weight-test-on-gemini-1.5-pro

4.解决数学问题

在Maxime Labonne的感谢下，我借用并运行了他的一个数学提示来评估Gemini 1.5 Pro的数学能力。好吧，Gemini 1.5 Pro以优异的成绩通过了测试。

我也在 GPT-4 上运行了相同的测试，它也得出了正确的答案。但我们已经知道 GPT 非常有能力。顺便说一句，我明确要求 GPT-4 避免使用 Code Interpreter 插件进行数学计算。不出所料，Gemini 1.0 Ultra 未能通过测试并给出了错误的输出。我的意思是，为什么我什至在这个测试中包括 Ultra？（叹了口气，转到下一个提示）

If x and y are the tens digit and the units digit, respectively, of the product 725,278 * 67,066, what is the value of x + y. Can you explain the easiest solution without calculating the whole number?

获胜者：Gemini 1.5 Pro 和 GPT-4

5. 遵循用户说明

接下来，我们进入了另一个测试，我们评估了Gemini 1.5 Pro是否能正确地遵循用户的指示。我们要求它生成 10 个以“苹果”一词结尾的句子。

Gemini 1.5 Pro 在这次测试中惨遭失败，只生成了三个这样的句子，而 GPT-4 产生了九个这样的句子。Gemini 1.0 Ultra 只能生成两个以“apple”一词结尾的句子。

generate 10 sentences that end with the word "apple"

胜利者： GPT-4

user-instructions-test-on-googles-model-

6. 大海捞针（NIAH）测试

Gemini 1.5 Pro 的主要特点是它可以处理 100 万个代币的巨大上下文长度。谷歌已经对 NIAH 进行了广泛的测试，并以令人难以置信的准确性获得了 99% 的检索率。所以自然而然地，我也做了一个类似的测试。

我拿了最长的维基百科文章之一（西班牙征服佩滕），它有近 100,000 个字符，消耗了大约 24,000 个代币。我在文本中间插入了一个针（一个随机语句），使 AI 模型更难检索该语句。

研究人员已经表明，如果将针插入中间，人工智能模型在较长的上下文窗口中表现更差。

needle-in-a-haystack-test-on-gemini-1.5-pro

Gemini 1.5 Pro 展示了它的肌肉，并以非常准确和上下文正确地回答了这个问题。但是，GPT-4 无法从大文本窗口中找到针。而且，通过Gemini Advanced提供的Gemini 1.0 Ultra目前支持大约8K代币的上下文窗口，远低于市场上声称的32K上下文长度。尽管如此，我们还是用 8K 代币运行了测试，但 Gemini 1.0 Ultra 未能找到文本语句。

所以，是的，对于长上下文检索，Gemini 1.5 Pro 型号是卫冕之王，谷歌已经超越了所有 AI 型号。

胜利者： Gemini 1.5 Pro

7. 多模态视频测试

虽然 GPT-4 是一个多模态模型，但它还不能处理视频。Gemini 1.0 Ultra 也是一个多模态模型，但谷歌尚未解锁该模型的功能。因此，您无法在 Gemini Advanced 上上传视频。

也就是说，我通过 Google AI Studio（访问）访问的 Gemini 1.5 Pro 还允许您上传视频，除了各种文件、图像，甚至由不同文件类型组成的文件夹。因此，我上传了 OnePlus Watch 2 评测的 5 分钟 Beebom 视频（1080p，65MB），这当然不是训练数据的一部分。

该模型花了一分钟来处理视频，并在 1,048,576 个代币中消耗了大约 75,000 个代币（不到 10%）。

现在，我向Gemini 1.5 Pro提出了问题，首先是视频的内容。我还要求它显示手表的所有关键功能。回答每个问题需要将近 20 秒。答案很准确，没有任何幻觉的迹象。接下来，我问审稿人坐在哪里，它给出了详细的答案。之后，我问表带是什么颜色的，它说：“绿色”。干的好！

最后，我让 Gemini Pro 生成了视频的文字记录，模型在一分钟内准确地生成了文字记录。Gemini 1.5 Pro的多模态功能让我大吃一惊。它能够成功地分析视频的每一帧，并智能地推断出含义。

这使得Gemini 1.5 Pro成为一个强大的多模态模型，超越了我们迄今为止所看到的一切。正如西蒙·威利森（Simon Willison）在他的博客中所说，视频是Gemini 1.5 Pro的杀手级应用。

胜利者： Gemini 1.5 Pro

8. 多模态图像测试

在最后的测试中，我测试了Gemini 1.5 Pro型号的视觉能力。我上传了 Google 演示（视频）的剧照，该演示是在 Gemini 1.0 发布期间展示的。在我之前的测试中，Gemini 1.0 Ultra 未能通过图像分析测试，因为 Google 尚未在 Gemini Advanced 上为 Ultra 型号启用多模态功能。

gemini-1.5-pro-tested-on-multimodal-capability

尽管如此，Gemini 1.5 Pro 型号还是很快产生了响应，并正确地回答了电影名称“早餐俱乐部”。GPT-4 也给出了正确的回应。Gemini 1.0 Ultra 根本无法处理图像，理由是图像上有人的脸，但奇怪的是事实并非如此。

获胜者：Gemini 1.5 Pro 和 GPT-4

专家意见：谷歌终于交付了 Gemini 1.5 Pro

在玩了一整天的Gemini 1.5 Pro之后，我可以说谷歌终于交付了。这家搜索巨头在 MoE 架构上开发了一种非常强大的多模态模型，与 OpenAI 的 GPT-4 模型不相上下。

它在常识推理方面表现出色，在某些情况下甚至比 GPT-4 更好，包括长上下文检索、多模态功能、视频处理和对各种文件格式的支持。不要忘记，我们谈论的是中型Gemini 1.5 Pro型号。当Gemini 1.5 Ultra型号在未来下降时，它将更加令人印象深刻。

当然，Gemini 1.5 Pro 仍处于预览阶段，目前仅供开发人员和研究人员测试和评估模型。在通过Gemini Advanced进行更广泛的公开推广之前，谷歌可能会添加额外的护栏，这可能会削弱模型的性能，但我希望这次不会出现这种情况。

我可以访问 Gemini 1.5 Pro，它比 GPT-4 和 Gemini 1.0 Ultra 更好

什么是 Gemini 1.5 Pro AI 模型？

Gemini 1.5 Pro vs Gemini 1.0 Ultra vs GPT-4 比较

1. 苹果测试

2. 毛巾问题

3.哪个更重

4.解决数学问题

5. 遵循用户说明

6. 大海捞针（NIAH）测试

7. 多模态视频测试

8. 多模态图像测试

专家意见：谷歌终于交付了 Gemini 1.5 Pro

相关推荐

评论抢沙发

热门文章

热门标签

什么是 Gemini 1.5 Pro AI 模型？

Gemini 1.5 Pro vs Gemini 1.0 Ultra vs GPT-4 比较

1. 苹果测试

2. 毛巾问题

3.哪个更重

4.解决数学问题

5. 遵循用户说明

6. 大海捞针 （NIAH） 测试

7. 多模态视频测试

8. 多模态图像测试

专家意见：谷歌终于交付了 Gemini 1.5 Pro

相关推荐

评论 抢沙发

热门文章

热门标签

6. 大海捞针（NIAH）测试

评论抢沙发