距离Google Deepmind发布Gemini 2.0差不多整整三个月(Gemini 2.0确立了Google在2025年AI的统治地位)。团队并没有发布新的版本,但是做了几件事情,其中,有三件是值得一提的:
1、发布了开源模型(开放权重)系列的第三个版本,Gemma 3(Google突然发布了开源的Gemma-3,30B左右或许是开源模型的最佳大小);
2、新发了Gemini 2.0 Flash的新实验版本(Gemini2-Flash-Exp),加入了“逆天”的图文功能;
3、将Deep Research的底层模型升级到Gemini 2.0;
是的,第一个关于Gemma 3的点评如上面的链接,已经在第一天完成了。实事求是讲,它确实是目前最好的开放权重的多模态模型,如今被低估的价值会随着时间推移不断显现出来。
关于第二件,仅仅在今天一天,就有大量的展示出现了,强大的自动图文能力,图像编辑能力。虽然,我知道目前这些功能对于我的场景而言需求不大,但是多图文能力确实是很多创作者梦想的:可以一个简单的提示词让模型自己生成一个故事,自动分镜头,为每个分镜头生成图片,期间不需要人的操作。
我其实用了好几个故事,这里演示一个基于《哪吒》启发的全新故事。下面是交互的截图,展示自动连续输出的能力。
下面,则是复制过来的模型输出。我相信,它可以生成更长的故事和配图,但是因为Google特殊的“内容安全过滤机制”,我在模型生成到第九个分镜时,就因为安全问题“无数遍”重试后也无法“安全的生成”了,其实Google提供了编辑功能,我大概可以通过修改,让工作继续下去。不过我没有“动漫编剧”的天赋,作为能力展示,就到这里吧。
视觉故事:《炎灵与风息》
导语:哪吒的成功启发了我们,这是一个全新的故事,关于两个拥有元素力量的少年,如何打破预言,成为自己的英雄。
第一幕:异象初现,命运交织
场景一:天降异石

镜头 1: 广角,夜空被撕裂,火光陨石坠落边境,形成燃烧的坑洞——炎灵石降临。

镜头 2: 特写,坑洞中央,一块赤红晶石散发着灼热光芒——炎灵石。

镜头 3: 远景,风谷深处,一道青色光柱冲天,形成强烈的气流旋涡——风息石显现。

镜头 4: 特写,旋涡中心,一块翠绿晶石流转着柔和光芒——风息石。

镜头 5: 内景,边境军营,慕容雪诞下婴儿,周身散发微弱火光,凌霄将军忧虑地看着孩子。

镜头 6: 外景,风谷,族人围着襁褓女婴,微风环绕,族长面色凝重。

场景二:力量觉醒

当然,Gemini 2.0 Flash-Exp 还有图像编辑功能,改图能力不错。
在多模态能力加持下的 Gemini 2.0 Flash-Exp,甚至可以全自动的生成微信公众号图文信息,如果平台不采取点措施的话,可能……
第三个更新:Gemini 2.0 支持的 Deep Research。
是的,Deep Research 已经成为我很多工作中非常重要的一个环节。
实事求是讲,在这之前 OpenAI 的 Deep Research 是我认为唯一“可用”的,所以我很期待 Gemini 2.0 加持后的表现。
上午发了一篇关于 Salesforce 的文章,里面涉及到的基础报告的原文中大部分是由 OpenAI 的 Deep Research 生成的,所以,我就用同样的流程和提示词让 Gemini 2 的 Deep Research 也进行了尝试。
从主观评价看,我认为两个模型基本一致,OpenAI 的篇幅更长,内容更多,但是 Gemini 2.0 的搜索的数据源更多,思考过程看起来更完整,最大特点是,引用的数据会更新一点。



(这一点,显然是因为 Gemini 引用了更新的季报财务数据)








是的,这些示例和比较让我更坚定了去年底的结论:Google Deepmind 在 AI 领域展现出来的越来越强的统治力。
其实带来这种“后来居上”格局的最重要原因当然是 Google “大象级”的体量,和巨大的先发优势。
但真正的胜负手是在两条道路的选择上:自研芯片,长上下文支持(一百万到两百万 tokens 的输入支持)。前者可以让 Google 按照自己的节奏做基础准备、训练、发布、应用生产;后者,实际上是生成式 AI 落地里最重要的功能(谁都想要长上下文,但只有跑在自家芯片上的 Gemini 才可以任性)。
当 OpenAI 为了更健康的现金流甚至在考虑推出更高价格(2000 美金?)月度订阅服务的时候,Google 依然可以大大方方的提供高额度的每日最新模型免费调用量;当其他模型公司需要一个个寻找应用点,甚至不惜代价制造爆款时,Google 只需要有条不紊的打通生态就可以了……
对了,这次的图文和图片编辑功能,如果加进三星的 Galaxy AI(我相信只是时间问题)的话,AI 手机就可能真的站住了。
写在最后:整个 2025 年也许就会证明一件事情,最好的模型就是最好的 AI 应用,我们现在看到的“雕花”大概率都是短暂的“昙花”而已。
因为,如果模型还能不断进步,那么模型能力就会覆盖“雕花”;反之,如果模型不再进步了,那么再怎么雕花,也是白费。