AI 为什么会有创造力？范畴论刻画大模型创造力的来源

当 AI 可以聊天、写作、画画，可以研究生物、物理、数学，人们在焦虑AI 终结人类历史的同时，也不禁好奇：AI 为什么会有创造力？AI 的创造力是一种“真正的”创造力吗？清华大学交叉信息学院助理教授袁洋认为，AI 大模型的创造力是一种同象（isomorphism）类型的创造力，完全可以通过计算的方式表达，并不神秘。更广泛的，其他类型的创造力在范畴论中也有相应刻画。从这个角度，人类的创造力，其实也就是各种各样的计算而已。

在回答这个问题之前，我们可能先要回答一个更重要的问题：AI有没有创造力？

几年前，我和朋友们讨论这个问题的时候，大家往往认为AI只能作为一个高级工具存在，擅长的是重复简单机械劳动，不可能有创造力。但ChatGPT出现以来，人们对AI能力有了更多想象，所以往往更关心诸如AI是否会毁灭人类这种生死攸关的大问题，对AI的创造力反而不那么关心了。

但相比世界毁灭这种宏大而又不可捉摸的未来，也许AI的创造力反而是一个值得仔细分析的课题。当然，在此之前，我们还要回答一个更基本的问题：什么是创造力？

这个问题已经被哲学家、心理学家、教育学家等多个领域的专家研究了很多年，我原本没有资格置喙。但是已有的相关定义和结论往往偏文科一些，今天我想从范畴论的角度给出一个更明确的定义。这个工作一样基于我ICML'2023发表的论文，详见《大模型的能力边界在哪里？来自范畴论视角的答案》。不过那篇太偏技术了，我们今天讲得soft一些。

一、从神经网络到大模型

2012年Alexnet问世的时候，我正好是个一年级的博士生。那时的神经网络给AI圈带来了很大的冲击，人们第一次意识到这个东西要比传统的机器学习算法强大很多。

但那种冲击更多是方法论层面的。虽然大家对神经网络的效果感觉很惊讶，但是普遍还是认为它只是一种效果好一点的机器学习工具罢了。后来的一些AI大事件，我也能用类似的方法自圆其说。比如AlphaGo之所以能赢，是因为它算力强，加上神经网络强大的图像分析能力，很正常。比如星际争霸AI玩得溜，是因为AI微操厉害，人手可点不过它。比如 AlphaFold 算蛋白质厉害，那是因为人类本来就不擅长算折叠这种高维任务。

但是Dall-E的出现，给了我很大震撼。当你输入一段文字之后，Dall-E可以帮你绘制一幅相应的图片。一个广为流传的例子是“牛油果椅子”，

即：输入：an armchair in the shape of an avocado. （一个牛油果形状的椅子）

输出：

当时的我非常震惊，这种震惊来源于一种对于未知的恐惧。我非常确定，我之前从来没有见过这样的图片，也就是说，世界上不存在牛油果椅子这样的设计，或者至少不存在这么多种牛油果椅子的设计。也就是说，这里面大部分的图片，在模型的训练数据集中是不存在的。这对于统计学习理论框架来说是极为糟糕的一件事情：模型到底为什么能在几乎没有见过类似作品的情况下，完美地画出这些图片？据我所知，传统的理论框架无法解释这件事。

而这，就是我们今天要谈的创造力。我认为，如果能设计出一种世界上从来没有的牛油果椅子，模型一定是拥有了创造力。

二、什么是创造力

但是在谈论这些模糊不清的概念的时候，我们一定要小心。很多人会反驳说，这个不算是创造力，真正的创造力是XXX。我想，创造力可以分为很多种，而我们今天只是谈其中的一种，这种创造力我称之为“同象”。同象对应的英文是isomorphism，一般被翻译成同构。但是在一些更强调内部复杂关系的地方，我觉得同象更合适一些

狭义的同象，就是给定一句文字描述，能够生成与之对应的图像。这个时候，文字的象和图像的象是一致的。但是，什么是象，什么是一致呢

用范畴论的语言来说，象是一个projective limit——但是我们今天不要讲那么抽象。简单来说，象就是一个大的对象的内部各种小对象之间关系的集合。打个比方，当我们分析“一个牛油果形状的椅子”这句话的时候，我们心中有好几个小对象，比如“一个”，“牛油果”，“形状”，“椅子”。它们彼此之间都有关系，比如一个是修饰椅子的，牛油果和形状是连在一起的，它们一起修饰椅子，等等。

当我们分析一个牛油果椅子的图片的时候，图片中一样有一把椅子，椅子是牛油果形状的。图片中的这些特征彼此之间也有关系，而这个关系本身，与文字中的 “牛油果形状”，还有“椅子”的关系，是能够对应起来的。这个时候，我们就说图片中的象，和文字中的象，是一致的。

更一般地来说，我们可以定义任何两个模态之间的象的一致性。我们只要明确两个模态中的基本元素（例如之前的文字、图像特征）有对应，元素关系也有对应，就得到了一对“同象”。

同象算不算一种创造力？我觉得算。用贴切的图像表达文本信息，或者用合适的音乐表现场景氛围，或者制作恰到好处的表情包表达情感，这些都是构建跨模态的同象对象，是拥有创造力的表现。

三、AI为什么有创造力？

不过，为什么模型可以拥有这种能力？光从统计学习理论的角度不容易解释清楚，毕竟模型能够生成大量之前从来没有见过的图片。但是从关系的角度就不难理解这件事情。我们很早就知道，模型拥有理解各个模态中基本元素的能力。不论是生成出一些猫猫狗狗的图片，还是分辨出图片中动物的类别，神经网络都可以做得很好。

在基本元素的基础之上，我们还需要刻画元素与元素之间的关系。这些关系的集合，加上基本元素本身，也就是象，可以使用一个高维向量来表达——这件事情对神经网络来说也并不困难。但是对于多个模态，模型可能会需要使用不一样的高维向量表达不同模态的象，因此“同象”的创造力就变成了一种高维向量的对齐。

在这个情况下，模型为了展现从模态A到模态B的创造力，只需要简单三步走：

1. 表达模态A中的象，记为向量νA

2. 将νA与模态B中的高维向量νB对齐，计算出νB

3. 计算模态B中的象，使其的表征等于νB

从这个角度来看，同象类型的创造力，是完全可以通过计算的方式表达的。当然，有朋友可能会说，这个本质不就是CLIP算法么？似乎我只是换了一种通俗的说法，把CLIP的算法又描述了一遍而已。

事实并非如此。如果我们能够深入理解模型创造力的来源，就可以利用它强化象的描述能力，实现更强大的创造力。例如，ControlNet就是在文字的基础上，加入了额外的图像描述，使得模型能够更清晰地理解用户想要表达的象，从而构建更好的作品。如下图所示：

关于ControlNet的具体介绍，可以参考别的知乎文章，例如：ControlNet v1.1：完整指南：https://zhuanlan.zhihu.com/p/631292050

当然了，画画只是一个例子，对于其他同象类别的创作任务，通过提升模态的表达能力，一定也可以提升模型的创作效果。

回到题目，AI为什么会有（同象）创造力？因为同象这种创造力可以被分成三步刻画出来，并不神秘。不过我认为，其他类型的创造力在范畴论中也有相应刻画，等着我们去发现。换句话说，人类的创造力，其实也就是各种各样的计算而已。

作者：袁洋

本文首发于作者知乎：https://zhuanlan.zhihu.com/p/636655209

Illustration by IconScout Store from IconScout

AI 为什么会有创造力？范畴论刻画大模型创造力的来源

一、从神经网络到大模型

二、什么是创造力

三、AI为什么有创造力？

作者信息

文章信息

上一篇

下一篇