显然自己还处在一种产出的瓶颈期,无论是新的尝试,还是原有部分的提升上。
我习惯性的会认为自己“想象力枯竭”了,用了一些过去很管用的方法去“冷启动”自己,但似乎效果并不理想:在准备一对一交流内容的过程中,我不相信是所谓的“模型降智”,我也尝试增加了迭代次数,并且在迭代里逐步加入更多的“人工干预”,但效果依然不太令人满意。
我想表达的与模型输出的似乎走上了两条不同的道路,但你总会更愿意相信“模型背后的数据”要比自己强大且客观的多,于是,就陷入了无穷的自我怀疑之中。这种怀疑不是简单的是不是方法错了,而是,是不是自己的mindset就错了。
做梦梦到非常真实的场景,里面出现的每一个家人与朋友的面容都无比清晰,唯独自己的面容是模糊的,醒来后,脑子里依然可以清晰的出现每一个家人与朋友的面容,唯独自己的面容依然是模糊的。
这似乎是对的,因为我们从来看不到自己,我们从来找不到很好的方法站在一个第三者的视角看清楚自己。
我不再相信自己的判断力,尽管我依然可以指出AI产出内容中一些细节性的“事实错误”,我依然可以大概定位这种错误来自于模型混乱的“时间观念”。可是我无法在更宏观的层面评判对错,无法对于风格、遣词造句,甚至,结论。(写到这里的时候,我被打断了一下,回来继续的时候,我发现这一段的人身代词使用的都是“你”,我都换成了“我”,很有意思的一种感觉)
我不知道这有多少是因为“大脑里对自己的面容总是模糊的”这一点,从小到大,我一直认为自己是个很自信甚至自负的人,可是如果我在看我呢?如果就跟写上一段时候一样,我都在用“你”代表“我”的时候呢?“观自己”这个概念并不新,甚至老掉牙了,还有很多主流的内观方法,甚至有两种截然相反的观点:一种是要控制不让自己想,一种是任由自己想,做个安静的观察者就好了。
十几年前,我用了第一种,最近,我尝试第二种。可是无论哪一种,那个“我”的位置都是模糊的。
也许《金刚经》里有不错的描述,不过,写到这里,我要在这个话题上收住了,但也很感谢写到了这里,因为与我开篇真正想说的那个关联点到了:AI落地。
上面的描述,几乎是“纯主观”的:如果目前AI的产出还需要给“人”来看,那么,我的“瓶颈期”或许就依然有意义,无论是因为我的“想象力枯竭”,还是因为模型能力,抑或,我与模型的融合上。
“人”,就还是那个最重要的阻碍,无论是人的主观评价,还是人的输入,或者,出于人的配合或者干预。
那么,依然顺着人的主观视角去评判:
我与模型的“蜜月窗口”大概就是我输入一份图文并茂篇幅在两三千字左右的文档:模型的注意力被充分利用;基本不遗漏细节;因为输入的内容饱满,模型自由发挥产生幻觉的机会也大幅降低;
还有一种方式是我输入几十份长短不一的语料,同时写在几百字的大纲,在这种模式下,模型依然可以有不错的输出,但是细节也已经出现明显的遗漏,有意思的是,同一个模型,在多次尝试下,“注意力”的偏移并不明显,意思是,重点突出的部分和被遗漏的部分在多次尝试下,基本差不多;
当只给模型输入有限信息,比如就最多几百字的描述,或者只是一句话的问题,模型可以产出,然而注意力就变得很奇怪:无论做不做deep research,模型似乎依然会将注意力集中到某几个点上(我理解为最容易被搜索到的结果),错误也会很聚焦,只是因为最多几百字的输入给了模型更多”犯错“的机会;
有意思的是,当我尝试复杂一点的操作,比如在上面几种模式中不断迭代,多次交互,不断调整自己的“输入大纲”时,看起来,在“人类注意力”(输入)到的部分质量明显改善了,但是在“人类注意力”没有覆盖到的部分,结果似乎更糟糕了(并非单点的优劣,而是“不搭”),那种不协调让人很难受,至少让我很难受,是不是跟模型的“温度”设定有关,我觉得关系不大;
某种程度上,我们进入了“抽彩票”模式,将多次结果里那些“意外的不同”进行拼接,制造一个可怕的“缝合怪”。
是的,很容易将这些问题定位:缺乏记忆,上下文不够,注意力头数不够。
可是至今我们依然不太知道,如果把注意力头数增加,把训练时跟上下文密切相关的batch size增加,会得到什么样的结果。毕竟在O(n^2)的复杂度下,如果翻倍增加只能带来有限度的质量提升,可能就是不太可行的。或者说,更底层的一个怀疑,基于token的数据表达,是不是也会有上限?即使多模态,也依然受限于对应的文本的token表达?
世界模型?物理AI?那个范式在哪里呢?当我举起相机时,一个问题在脑海里反复出现:我眼睛看到的,或者镜头看到的,跟模型“看到”的到底有什么不一样?
如果再往前看个几十万年,有花有草,有山有水,有很多存在,但似乎并没有语言和文字(就我们目前所知)。所以维根斯坦会说“我的语言的界限就是我的世界的界限”,这句话用来说明这就是目前模型世界的界限会更合适。但是,在没有语言没有思想的空间里(或者我们人脑处理),一样物品朝我们迎面飞来,下意识的反应大概率是“躲”,哪怕我们根本都来不及用文字和语言来描述这件物品,现在有人把它归类为“系统1”,模型的研发者都在不断强调“系统2”(非本能反应的思考)的重要性。
可是,人类在这个世界落地,绝大多数比例依靠的都是所谓的“系统1”吧?那,AI要在人类世界里落地,靠“系统2”吗?靠“系统2”去“取代人类工作”吗?
也许在未来某一天,AI可以强大到自己造一个世界,我很相信这件事情早晚会发生。但在如今及不短的一段未来,“人”,依然是横亘在AI前最大的阻碍,或者说,“山峰”。
AI落地,是人的问题,对吗?
是它还需要不断进化以更好的配合人,是它还需要不断进化让成本下降99%、99.9%、99.99%……。
在一个“极度通缩”的AI世界里,我们或许才能有更多的机会去发掘它“压缩人类所有知识”下的烟波浩渺,或许,才有机会找到那个符合每一个“人”的产出,而不是大样本下的大数定律再现:正确的千篇一律,错误的毫无惊喜。
也许,只有这样,我们才有机会看清楚自己模糊的脸,我们才有机会看到一个又一个的与众不同,我们才有机会看到在我们理解的世界之外更无穷更广阔的世界。
而关于这个不远的未来,我不相信是“黑暗”的,因为,它可以“照见五蕴深处”。