谷歌发布Gemini 1.5 Pro和开放 Ultra 1.0模型
谷歌在Sora之前几个小时发布的内容,也非常离谱了,100万上下文长度可以支持1小时的视频内容、11小时的音频内容、3万行代码、70万字的文字。RAG基本上不存在了,同时他们还测试了1000万的上下文,错误率也不是很高。目前公开模型上下文长度最长的是Claude 2.1的20万Token。
- Gemini 1.5基于Transformer和MoE架构的研究和工程创新,提高了训练和服务的效率。
- Gemini 1.5 Pro是一个中等规模的多模态模型,适用于多种任务,并引入了在长上下文理解方面的实验性特性。
- Gemini 1.5 Pro在文本、代码、图像、音频和视频评估的综合面板上的性能超过了Gemini 1.0 Pro,并且与1.0 Ultra在同样的基准测试上表现相当。
- 此外,Gemini 1.5 Pro在进行长上下文窗口的测试中表现出色,在NIAH评估中,它在长达100万个Token的数据块中99%的时间内找到了嵌入的文本。
里面还举了一些可以提现上下文能力的例子:
- 它可以完整理解高达80 万 Token 的 Three.js 代码以及相关文档库。并根据提示找到对应的代码和示例完成教学和编码任务。
- 多模态演示,可以从一部有 60 万 Token 的电影中精确的找到截图的时间戳以及所描述的内容。
- 维克多·雨果的五卷本长篇小说《悲惨世界》(共1382页,含有大约732,000个Token)。
它的多模态(multimodal)处理能力可以处理粗略地画出一个场景,然后询问“请看这幅图画中的情景。这个场景出现在书的哪一页?”
谷歌还像泄露的文件描述的一样将Bard更名为Gemini,同时推出了Gemini Advanced付费会员计划,可以使用Ultra 1.0模型。
Gemini Advanced 现已在 150 多个国家和地区提供英语版本。
可以在安卓的Gemini应用和iOS 的谷歌应用使用Gemini Advanced。
同时Google Assistant 语音功能将会由Gemini驱动,这个真是大招,直接吊打 siri 。
Gemini 开始在美国的 Android 和 iOS 手机上推出英语版本,并将在未来几周内全面推出。从下周开始,将能够在更多地点以英语、日语和韩语访问它,并且即将推出更多国家/地区和语言。
公告地址:https://blog.google/products/gemini/bard-gemini-advanced-app/