欢迎光临消费电子实验室!  

登录 立即注册 找回密码

设为首页收藏本站

最强大:谷歌发布多模态模型Gemini

2023-12-7 18:23| 发布者: bicq| 查看: 1966| 评论: 0

摘要: 谷歌Gemini所强调的原生多模态,是指从一开始就对不同的模态进行预训练,然后用额外的多模态数据对其进行微调,以此来进一步完善大模型的有效性。
【消费电子实验室-2023/12/7】北京时间今天凌晨,谷歌CEO皮猜和哈萨比斯在谷歌官网联名发文,宣布推出这一万众瞩目的多模态大模型。标题写着“最大”、“最强”。

此次谷歌一共带来了Gemini的三个版本:
Gemini Ultra:谷歌最大、最强模型,适用于高度复杂的任务
Gemini Pro:可扩展至各种任务的Gemini模型
Gemini Nano:适用于端侧设备的高效Gemini版本(1.8B/3.25B)
其中Gemini Ultra一上来就在32个基准测试中拿下30个SOTA,并且第一个在MMLU基准上达到人类专家水平。

而Gemini Pro从今天起,就会在Bard中实装上线。
谷歌Gemini背后的技术
谷歌Gemini背后技术的杀手锏,便是原生多模态(natively multimodal)。因为以往创建多模态大模型的方法,通常是为不同的模态训练单独的组件,然后将它们拼接在一起,大致模拟其中的一些功能。

这样训练出来的模型虽然有时可以很好地执行某些任务(比如描述图像),但在面对更具概念性和复杂推理的情况下,就会出现表现不佳的结果。

而谷歌Gemini所强调的原生多模态,是指从一开始就对不同的模态进行预训练,然后用额外的多模态数据对其进行微调,以此来进一步完善大模型的有效性。

谷歌对此表示:这样的训练方法,有助于Gemini从头开始无缝地理解和推理各种输入,远远优于现有的多模态模型;而且它的功能在几乎每个领域都是最先进的。

具体到模型架构方面,Gemini基于增强的Transformer decoder打造,采用了高效attention机制(如multi-query attention),支持32k上下文长度。

尽管没有透露Ultra和Pro版本的具体参数规模,但技术报告中提到,谷歌使用TPUv5e和TPUv4来训练Gemini。

训练Gemini Ultra使用了跨多个数据中心的大量TPUv4。这意味着与谷歌此前的主力大模型PaLM-2相比,Gemini在规模上显著增大。

此前,PaLM-2被曝参数规模为3400亿。

Pixel 8 Pro将是第一款运行Gemini Nano的智能手机
竞争对手那边,OpenAI的GPTs惊艳全世界,微软的Copilot更是先一步渗透进全线产品。

因此Gemini一出,谷歌也当即强调:Gemini将通过谷歌产品推向数十亿用户。

率先上线的是Gemini Pro。从今天起,谷歌的聊天机器人Bard将由Gemini Pro微调版本驱动。谷歌表示:这是Bard自推出以来的最大升级。

谷歌还打算把Gemini引入手机:Pixel 8 Pro将是第一款运行Gemini Nano的智能手机。

另外,谷歌计划在接下来几个月中,将Gemini全面推向搜索、广告、Chrome和Duet AI等产品线。

根据官方数据,Gemini能使用户的搜索生成体验(SGE)速度更快、质量更高,比如在美国使用英语搜索延迟能减少40%。

值得关注还有,就在Gemini正式亮相的同时,谷歌还推出了专为大模型而设计的新一代TPU——Cloud TPU v5p。

参考链接:
[1]https://blog.google/technology/ai/google-gemini-ai
[2]https://storage.googleapis.com/deepmind-media/gemini/gemini_1_report.pdf
[3]https://youtu.be/jV1vkHv4zq8?si=jjAw0uV0dkpP3eVT

鲜花

握手

雷人

路过

鸡蛋

网站介绍 广告业务 欢迎投稿 招聘信息 联系我们 友情链接 法律顾问 网站地图

CopyRight 2012消费电子实验室 版权所有 京ICP备12048044号-4号

电话:13701384402 邮编:100040 邮箱:BICQ6688@QQ.COM

回顶部