最近一段时间，谷歌的AI大模型进展吸引了不少关注。

但在大家都搓着手，试图等着看谷歌如何逆风翻盘的时候，AI大模型领域的霸主OpenAI再次传来重磅消息。

根据外媒The Information的报道，OpenAI即将推出多模态模型GPT-Vision，文章标题毫不客气地表明这是用来回击谷歌的。

虽然新版本还没有真正来，但是已经足以让我们窥见这个赛道的下一阶段竞争重点——多模态。

01#“GPT-5”进展到哪一步了？

根据The Information的爆料，OpenAI正准备在GPT-4的基础上推出图像理解功能GPT-Vision。这相当于是在给GPT-4叠buff，挤牙膏式地完善它，反正目前公认的AI一把手还得是GPT-4。

此外，报道中还提到，OpenAI可能在GPT-Vision之后推出代号为“Gobi”的大模型。和GPT-4不同，所谓“更强大的”Gobi从一开始就是按照多模态模型去构建的。

外界把这个全新的大模型锁定为GPT-5的有力候选，因为大部分人并不相信此前OpenAI的首席执行官兼联合创始人Sam Altman在麻省理工学院活动中的辟谣：

我们现在没有训练，短期内也不会训练GPT-5。

Sam Altman在麻省理工学院回应GPT-5传闻

毕竟当时这段表态主要还是用来回应公开信《暂停AI巨型实验》。3月29日，包括特斯拉CEO埃隆·马斯克、苹果联合创始人Steve Wozniak、图灵奖得主Yoshua Bengio在内的数千位科技界人士联名呼吁，在6个月内暂停开发比GPT-4更为强大的AI系统，以留出时间解决AI的安全与伦理问题。

就在本月初，DeepMind联合创始人、现Inflection AI的CEO Mustafa Suleyman在一次访谈中表示自己认为OpenAI正在秘密训练GPT-5。Suleyman把多数人心里的猜测摆到了台面上，压力重新给到了OpenAI。

截图自访谈节目《CEO of Inflection AI Mustafa Suleyman on risks of artificial intelligence》

不过现在谈论GPT-5或许还是太早了，因为OpenAI至今没有对相关消息作出回应。除了代号Gobi的全新大模型有可能是传言中的GPT-5，其余我们一概不知。甚至根据外媒消息，OpenAI似乎还没有开始训练Gobi。

相对来说，GPT-Vision的情况更加有迹可循。

目前有不少人猜测，GPT-Vision很可能是此前就在GPT-4的3月发布会上演示过的多模态功能。当时的GPT-4仅根据一张简单的手写草图就生成了网页代码，震惊全世界。

3月GPT-4发布会上的演示过程

但在一时惊艳之后，除了提供给一家为盲人创造技术的公司Be My Eyes之外，功能更新和实际使用中都再没有这方面的信息，包括文生图等功能。

其原因或许可以从《纽约时报》7月的一篇报道中推断，OpenAI担心该功能可能被滥用于面部识别等方面。再结合Sam Altman此前辟谣时提及的，“OpenAI正在解决公开信中忽略的基于GPT-4的各种安全问题。”相关的安全顾虑或许已经有了解决方式。

也意味着，这种屏蔽很可能要迎来放开了。

按照The Information的说法，OpenAI希望以“GPT-Vision”的名义更广泛地提供图像理解，将为GPT-4打开许多新的基于图像的应用程序，例如生成匹配图片的文本等。

同时，还有传言称DALL-E 3也在开发中，可能会集成到ChatGPT或GPT-4中。其与GPT-Vision都可能在11月6日的OpenAI开发者大会上公布，因为OpenAI首席执行官Sam Altman曾经如此说道：

将会有“伟大的东西”，尽管没有GPT-4.5或GPT-5那么大。

总的来说，虽然GPT-5还没来，但GPT-4要发力多模态，新一轮AI刷新科技观的热潮或许不远了。

02#OpenAI和谷歌较上劲了

在这次对OpenAI新动作的报道中，中外媒体观点出奇一致，基本都认为是冲着谷歌的Gemini去的。

根据媒体9月14日援引三位直接知情人士消息称，谷歌已向一小部分公司提供了Gemini的早期版本，通过公司的云计算服务出售给企业，意味着谷歌考虑将其纳入消费者服务，Gemini的发布或许在即。

Gemini被称为谷歌的集大成之作，从今年4月就一直隐隐有消息传出，项目的参与者包括了原DeepMind创始人Demis Hassabis等大牛，谷歌创始人Segey Brin也亲自加入对Gemini的训练。

上个月底，SemiAnalysis的分析师Dylan Patel和Daniel Nishball曝光了更多相关消息。

根据现有信息，我们能够对Gemini有以下的认知：

1、初代Gemini应该是在TPUv4上训练的，且选择使用较少的芯片数量，以保证芯片的可靠性和热插拔。目前其已开始在TPUv5 Pod上训练，算力比训练GPT-4的要大 5 倍。

2、Gemini的训练数据库为Youtube上93.6亿分钟的视频字幕，总数据集大小约为GPT-4的两倍。

3、Gemini由一组大型语言模型组成，可能使用MOE架构与投机采样技术，通过小模型提前生成token传输至大模型评估，提高总推理速度。

4、Gemini支持聊天机器人、总结文本或生成原始文本（如电子邮件草稿、歌词或新闻文章）、生成原始图片等功能。

5、Gemini支持帮助工程师编写代码，谷歌希望其提高开发人员的代码生成能力，以追赶微软的GitHub Copilot代码助手，后者依赖于OpenAI。

6、谷歌员工还讨论过利用Gemini来实现图表分析等功能，比如要求模型解释图表的含义，及使用文本或语音指令来浏览网页或其他软件。

7、Gemini有不同大小版本，支持开发者购买简化版处理简单任务，足够小的版本可以在个人终端运行。

值得注意的是，相比GPT-4，Gemini有一个优势——除了网络公共信息外，还可以利用谷歌从其消费产品中获取大量专有数据。因此，有相关人士认为：

该模型在理解用户对特定查询的意图时应该会特别准确，而且它似乎会产生较少的错误答案（即幻觉）。

尽管Gemini还没有真正登场，但已经有不少人表达了看好。在前面提及的Dylan Patel和Daniel Nishball的文章中，也有类似的观点：

The statement that may not be obvious is that the sleeping giant, Google has woken up, and they are iterating on a pace that will smash GPT-4 total pre-training FLOPS by 5x before the end of the year.（可能不太明显的说法是，沉睡的巨人Google已经苏醒，他们正在迭代，将在年底前将GPT-4预训练总FLOPS提高5倍。）

我们可以发现，Gemini的每一项都在和GPT-4作比较，当然这是不可避免的情况。毕竟在ChatGPT横空出世之前，手握AI利剑的还是谷歌。

所以大众的共识都是——

The point here is Google had all the keys to the kingdom, but they fumbled the bag. （这里的重点是谷歌拥有王国的所有钥匙，但他们却弄丢了袋子。）

基于此，谷歌也不得不更加努力，加速证明自己仍然能在AI一道上拿分。谷歌选择直接偷家，趁着OpenAI还没拿出真正的多模态模型之前，试图抢先在高地插上自己的旗子。当然，OpenAI并不打算放任谷歌追击，这也就有了此次的GPT-Vision和Gobi。

这也指出了下一阶段AI竞争的重点，便是各家正在内卷的多模态。毕竟文字形式的生成式AI已经毫无新鲜感，再智能也只能屈居于ChatGPT的荣光之下。

不过，发展至今日，AI的战场上已经不是两军对垒的局面了，谷歌和OpenAI不过是混战中较显眼的巨头。

同样需要盈利的这两者都在大模型的项目中加入了商业化的部分，比如对企业方的政策。但另辟蹊径的后来者Meta，走的是开源的路子，一直在不断发布新功能，主打一个量多还免费。

很难评，大家会不会为了成本而选择Meta。

可以说，现在的AI混战已经到了胶着的白热化阶段，下一个冲出来的会是谁，让子弹再飞一会儿吧。

脚本类资源大部分都是钓鱼贴，不建议购买！实在头铁的购买后不退款（可退款到账户余额）！
购买需谨慎！！购买需谨慎！！购买需谨慎！！
本站仅分享项目，不提供任何指导，不会操作请参考项目内教程自行研究，小白请勿下单！
客服不回复任何关于项目内的问题咨询。
本站内容转载于网络，版权归原作者所有，仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任，如果侵犯了您的权益，请联系站长 QQ：2428-6070 进行删除。

THE END