AI 为什么会有创造力?范畴论刻画大模型创造力的来源

2023-10-30 13:18 317 阅读 ID:1568
将门
将门

当 AI 可以聊天、写作、画画,可以研究生物、物理、数学,人们在焦虑AI 终结人类历史的同时,也不禁好奇:AI 为什么会有创造力?AI 的创造力是一种“真正的”创造力吗?清华大学交叉信息学院助理教授袁洋认为,AI 大模型的创造力是一种同象(isomorphism)类型的创造力,完全可以通过计算的方式表达,并不神秘。更广泛的,其他类型的创造力在范畴论中也有相应刻画。从这个角度,人类的创造力,其实也就是各种各样的计算而已。

在回答这个问题之前,我们可能先要回答一个更重要的问题:AI有没有创造力?

几年前,我和朋友们讨论这个问题的时候,大家往往认为AI只能作为一个高级工具存在,擅长的是重复简单机械劳动,不可能有创造力。但ChatGPT出现以来,人们对AI能力有了更多想象,所以往往更关心诸如AI是否会毁灭人类这种生死攸关的大问题,对AI的创造力反而不那么关心了。

但相比世界毁灭这种宏大而又不可捉摸的未来,也许AI的创造力反而是一个值得仔细分析的课题。当然,在此之前,我们还要回答一个更基本的问题:什么是创造力?

这个问题已经被哲学家、心理学家、教育学家等多个领域的专家研究了很多年,我原本没有资格置喙。但是已有的相关定义和结论往往偏文科一些,今天我想从范畴论的角度给出一个更明确的定义。这个工作一样基于我ICML'2023发表的论文,详见《大模型的能力边界在哪里?来自范畴论视角的答案》。不过那篇太偏技术了,我们今天讲得soft一些。  

一、从神经网络到大模型

2012年Alexnet问世的时候,我正好是个一年级的博士生。那时的神经网络给AI圈带来了很大的冲击,人们第一次意识到这个东西要比传统的机器学习算法强大很多。

但那种冲击更多是方法论层面的。虽然大家对神经网络的效果感觉很惊讶,但是普遍还是认为它只是一种效果好一点的机器学习工具罢了。后来的一些AI大事件,我也能用类似的方法自圆其说。比如AlphaGo之所以能赢,是因为它算力强,加上神经网络强大的图像分析能力,很正常。比如星际争霸AI玩得溜,是因为AI微操厉害,人手可点不过它。比如 AlphaFold 算蛋白质厉害,那是因为人类本来就不擅长算折叠这种高维任务。

但是Dall-E的出现,给了我很大震撼。当你输入一段文字之后,Dall-E可以帮你绘制一幅相应的图片。一个广为流传的例子是“牛油果椅子”,

即:输入:an armchair in the shape of an avocado. (一个牛油果形状的椅子)

输出:

当时的我非常震惊,这种震惊来源于一种对于未知的恐惧。我非常确定,我之前从来没有见过这样的图片,也就是说,世界上不存在牛油果椅子这样的设计,或者至少不存在这么多种牛油果椅子的设计。也就是说,这里面大部分的图片,在模型的训练数据集中是不存在的。这对于统计学习理论框架来说是极为糟糕的一件事情:模型到底为什么能在几乎没有见过类似作品的情况下,完美地画出这些图片?据我所知,传统的理论框架无法解释这件事。

而这,就是我们今天要谈的创造力。我认为,如果能设计出一种世界上从来没有的牛油果椅子,模型一定是拥有了创造力。

  二、什么是创造力

但是在谈论这些模糊不清的概念的时候,我们一定要小心。很多人会反驳说,这个不算是创造力,真正的创造力是XXX。我想,创造力可以分为很多种,而我们今天只是谈其中的一种,这种创造力我称之为“同象”。同象对应的英文是isomorphism,一般被翻译成同构。但是在一些更强调内部复杂关系的地方,我觉得同象更合适一些

狭义的同象,就是给定一句文字描述,能够生成与之对应的图像。这个时候,文字的象和图像的象是一致的。但是,什么是象,什么是一致呢

用范畴论的语言来说,象是一个projective limit——但是我们今天不要讲那么抽象。简单来说,象就是一个大的对象的内部各种小对象之间关系的集合。打个比方,当我们分析“一个牛油果形状的椅子”这句话的时候,我们心中有好几个小对象,比如“一个”,“牛油果”,“形状”,“椅子”。它们彼此之间都有关系,比如一个是修饰椅子的,牛油果和形状是连在一起的,它们一起修饰椅子,等等。

当我们分析一个牛油果椅子的图片的时候,图片中一样有一把椅子,椅子是牛油果形状的。图片中的这些特征彼此之间也有关系,而这个关系本身,与文字中的 “牛油果形状”,还有“椅子”的关系,是能够对应起来的。这个时候,我们就说图片中的象,和文字中的象,是一致的。

更一般地来说,我们可以定义任何两个模态之间的象的一致性。我们只要明确两个模态中的基本元素(例如之前的文字、图像特征)有对应,元素关系也有对应,就得到了一对“同象”。

同象算不算一种创造力?我觉得算。用贴切的图像表达文本信息,或者用合适的音乐表现场景氛围,或者制作恰到好处的表情包表达情感,这些都是构建跨模态的同象对象,是拥有创造力的表现。

                                                  最新的 DALL·E 3 生成的人形秋天树叶组成的乐队

三、AI为什么有创造力?

不过,为什么模型可以拥有这种能力?光从统计学习理论的角度不容易解释清楚,毕竟模型能够生成大量之前从来没有见过的图片。但是从关系的角度就不难理解这件事情。我们很早就知道,模型拥有理解各个模态中基本元素的能力。不论是生成出一些猫猫狗狗的图片,还是分辨出图片中动物的类别,神经网络都可以做得很好。

在基本元素的基础之上,我们还需要刻画元素与元素之间的关系。这些关系的集合,加上基本元素本身,也就是象,可以使用一个高维向量来表达——这件事情对神经网络来说也并不困难。但是对于多个模态,模型可能会需要使用不一样的高维向量表达不同模态的象,因此“同象”的创造力就变成了一种高维向量的对齐。

在这个情况下,模型为了展现从模态A到模态B的创造力,只需要简单三步走:

1. 表达模态A中的象,记为向量νA

2. 将νA与模态B中的高维向量νB对齐,计算出νB

3. 计算模态B中的象,使其的表征等于νB

从这个角度来看,同象类型的创造力,是完全可以通过计算的方式表达的。当然,有朋友可能会说,这个本质不就是CLIP算法么?似乎我只是换了一种通俗的说法,把CLIP的算法又描述了一遍而已。

事实并非如此。如果我们能够深入理解模型创造力的来源,就可以利用它强化象的描述能力,实现更强大的创造力。例如,ControlNet就是在文字的基础上,加入了额外的图像描述,使得模型能够更清晰地理解用户想要表达的象,从而构建更好的作品。如下图所示:

关于ControlNet的具体介绍,可以参考别的知乎文章,例如:ControlNet v1.1:完整指南:https://zhuanlan.zhihu.com/p/631292050

当然了,画画只是一个例子,对于其他同象类别的创作任务,通过提升模态的表达能力,一定也可以提升模型的创作效果。

回到题目,AI为什么会有(同象)创造力?因为同象这种创造力可以被分成三步刻画出来,并不神秘。不过我认为,其他类型的创造力在范畴论中也有相应刻画,等着我们去发现。换句话说,人类的创造力,其实也就是各种各样的计算而已。

作者:袁洋

本文首发于作者知乎:https://zhuanlan.zhihu.com/p/636655209

Illustration by IconScout Store from IconScout

免责声明:作者保留权利,不代表本站立场。如想了解更多和作者有关的信息可以查看页面右侧作者信息卡片。
反馈
to-top--btn