Jan 12, 2026

瓶颈期，一些AI进一步落地方面的问题

显然自己还处在一种产出的瓶颈期，无论是新的尝试，还是原有部分的提升上。

我习惯性的会认为自己“想象力枯竭”了，用了一些过去很管用的方法去“冷启动”自己，但似乎效果并不理想：在准备一对一交流内容的过程中，我不相信是所谓的“模型降智”，我也尝试增加了迭代次数，并且在迭代里逐步加入更多的“人工干预”，但效果依然不太令人满意。

我想表达的与模型输出的似乎走上了两条不同的道路，但你总会更愿意相信“模型背后的数据”要比自己强大且客观的多，于是，就陷入了无穷的自我怀疑之中。这种怀疑不是简单的是不是方法错了，而是，是不是自己的mindset就错了。

做梦梦到非常真实的场景，里面出现的每一个家人与朋友的面容都无比清晰，唯独自己的面容是模糊的，醒来后，脑子里依然可以清晰的出现每一个家人与朋友的面容，唯独自己的面容依然是模糊的。

这似乎是对的，因为我们从来看不到自己，我们从来找不到很好的方法站在一个第三者的视角看清楚自己。

我不再相信自己的判断力，尽管我依然可以指出AI产出内容中一些细节性的“事实错误”，我依然可以大概定位这种错误来自于模型混乱的“时间观念”。可是我无法在更宏观的层面评判对错，无法对于风格、遣词造句，甚至，结论。（写到这里的时候，我被打断了一下，回来继续的时候，我发现这一段的人身代词使用的都是“你”，我都换成了“我”，很有意思的一种感觉）

我不知道这有多少是因为“大脑里对自己的面容总是模糊的”这一点，从小到大，我一直认为自己是个很自信甚至自负的人，可是如果我在看我呢？如果就跟写上一段时候一样，我都在用“你”代表“我”的时候呢？“观自己”这个概念并不新，甚至老掉牙了，还有很多主流的内观方法，甚至有两种截然相反的观点：一种是要控制不让自己想，一种是任由自己想，做个安静的观察者就好了。

十几年前，我用了第一种，最近，我尝试第二种。可是无论哪一种，那个“我”的位置都是模糊的。

也许《金刚经》里有不错的描述，不过，写到这里，我要在这个话题上收住了，但也很感谢写到了这里，因为与我开篇真正想说的那个关联点到了：AI落地。

上面的描述，几乎是“纯主观”的：如果目前AI的产出还需要给“人”来看，那么，我的“瓶颈期”或许就依然有意义，无论是因为我的“想象力枯竭”，还是因为模型能力，抑或，我与模型的融合上。

“人”，就还是那个最重要的阻碍，无论是人的主观评价，还是人的输入，或者，出于人的配合或者干预。

那么，依然顺着人的主观视角去评判：

我与模型的“蜜月窗口”大概就是我输入一份图文并茂篇幅在两三千字左右的文档：模型的注意力被充分利用；基本不遗漏细节；因为输入的内容饱满，模型自由发挥产生幻觉的机会也大幅降低；

还有一种方式是我输入几十份长短不一的语料，同时写在几百字的大纲，在这种模式下，模型依然可以有不错的输出，但是细节也已经出现明显的遗漏，有意思的是，同一个模型，在多次尝试下，“注意力”的偏移并不明显，意思是，重点突出的部分和被遗漏的部分在多次尝试下，基本差不多；

当只给模型输入有限信息，比如就最多几百字的描述，或者只是一句话的问题，模型可以产出，然而注意力就变得很奇怪：无论做不做deep research，模型似乎依然会将注意力集中到某几个点上（我理解为最容易被搜索到的结果），错误也会很聚焦，只是因为最多几百字的输入给了模型更多”犯错“的机会；

有意思的是，当我尝试复杂一点的操作，比如在上面几种模式中不断迭代，多次交互，不断调整自己的“输入大纲”时，看起来，在“人类注意力”（输入）到的部分质量明显改善了，但是在“人类注意力”没有覆盖到的部分，结果似乎更糟糕了（并非单点的优劣，而是“不搭”），那种不协调让人很难受，至少让我很难受，是不是跟模型的“温度”设定有关，我觉得关系不大；

某种程度上，我们进入了“抽彩票”模式，将多次结果里那些“意外的不同”进行拼接，制造一个可怕的“缝合怪”。

是的，很容易将这些问题定位：缺乏记忆，上下文不够，注意力头数不够。

可是至今我们依然不太知道，如果把注意力头数增加，把训练时跟上下文密切相关的batch size增加，会得到什么样的结果。毕竟在O(n^2)的复杂度下，如果翻倍增加只能带来有限度的质量提升，可能就是不太可行的。或者说，更底层的一个怀疑，基于token的数据表达，是不是也会有上限？即使多模态，也依然受限于对应的文本的token表达？

世界模型？物理AI？那个范式在哪里呢？当我举起相机时，一个问题在脑海里反复出现：我眼睛看到的，或者镜头看到的，跟模型“看到”的到底有什么不一样？

如果再往前看个几十万年，有花有草，有山有水，有很多存在，但似乎并没有语言和文字（就我们目前所知）。所以维根斯坦会说“我的语言的界限就是我的世界的界限”，这句话用来说明这就是目前模型世界的界限会更合适。但是，在没有语言没有思想的空间里（或者我们人脑处理），一样物品朝我们迎面飞来，下意识的反应大概率是“躲”，哪怕我们根本都来不及用文字和语言来描述这件物品，现在有人把它归类为“系统1”，模型的研发者都在不断强调“系统2”（非本能反应的思考）的重要性。

可是，人类在这个世界落地，绝大多数比例依靠的都是所谓的“系统1”吧？那，AI要在人类世界里落地，靠“系统2”吗？靠“系统2”去“取代人类工作”吗？

也许在未来某一天，AI可以强大到自己造一个世界，我很相信这件事情早晚会发生。但在如今及不短的一段未来，“人”，依然是横亘在AI前最大的阻碍，或者说，“山峰”。

AI落地，是人的问题，对吗？

是它还需要不断进化以更好的配合人，是它还需要不断进化让成本下降99%、99.9%、99.99%……。

在一个“极度通缩”的AI世界里，我们或许才能有更多的机会去发掘它“压缩人类所有知识”下的烟波浩渺，或许，才有机会找到那个符合每一个“人”的产出，而不是大样本下的大数定律再现：正确的千篇一律，错误的毫无惊喜。

也许，只有这样，我们才有机会看清楚自己模糊的脸，我们才有机会看到一个又一个的与众不同，我们才有机会看到在我们理解的世界之外更无穷更广阔的世界。

而关于这个不远的未来，我不相信是“黑暗”的，因为，它可以“照见五蕴深处”。