腾讯首席科学家张正友对话中科院计算技术所陈熙霖：AI与机器人推进全真互联

12 月 1 日，2022 年腾讯数字生态大会 Techo 前沿技术论坛召开。腾讯首席科学家、腾讯 AI Lab 及 Robotics X 实验室主任张正友对话中科院计算技术所研究员陈熙霖，探讨了人工智能、大模型及机器人等前沿技术的发展历史与趋势，以及这些技术如何改变了我们的生活，并将如何推进全真互联的到来。

以下为对谈内容整理：

Q1: 过去30年对人类生活改变比较大的技术有哪些？

陈熙霖：

过去30年在我的记忆当中，从计算机到互联网是对我们人类生活改变最大的技术。30年以前，个人计算机虽然名为个人计算机，可在中国绝大多数家庭都还没有。同样，我第一次接触到互联网应该也正好是30年前。那个时候发电子邮件要通过调制解调器拨号，现在很难想象2400 bps的速度，那时候发个邮件已经是互联网很重要的事件。

今天，互联网已经成为我们生活当中不可或缺的一部分。大概在90年代初有一个互联网的挑战实验，把一个人关在屋子里72小时，看你如何利用互联网生存下去。今天可能这个话题就要变成，把你的所有移动通讯设备和网络都切断，你还能不能生存72小时，这就是我们生活中最大的改变和影响。至于这个改变和影响带给整个经济社会的变化，我想更是大家有目共睹的。

张正友：

计算机和互联网的普及对人类生活和工作带来了非常巨大的影响，我再补充几个其他技术。

第二个技术是GPS，对我们出行带来的便捷是不可思议的。以前出行必须要预先看地图，把路径规划好，出门以后也要非常小心因为万一进入到不熟悉的路，后面就不知道怎么走了。有了GPS系统之后，我们就可以随时想走就走。

第三个技术是移动互联网，让我们随时、随地、随身就可以获取想要的信息和服务，和朋友同事都可以沟通，交互非常重要。

第四个是人工智能，让我们进入到一个智能的时代——全真互联的时代。这一波的人工智能主要是三大部分——ABC 。

A是算法（Algorithm），算法也有很大的变化，以前是基于专家系统，现在主要是深度学习。计算机视觉、语音处理、自然语言这些技术的算法变化也非常大。

B是大数据（Big data），大数据也是因为有了互联网和移动互联网成为现实。以及同样重要的传感器技术，比方说视觉里面的图像和视频，就来自传感器CCD技术的发展。此外麦克风的发展，使得我们具有大量的图像和语音数据，当然还有文本数据等。

C是算力（Computing），算力的发展也非常重要，随着摩尔定律的指数级演进，算力和A、B的结合，使得这次人工智能能够有突破。

陈熙霖：

我们刚开始做研究的时候，图像就那么几幅Lena、Pepper等。因为传感器的原因，图像要用所谓的飞点扫描仪，一点一点地扫描获取，非常昂贵。但现在数据非常容易得到，就跟在过去纸张没有普及以前，人类知识普及就会很慢。所以传感器是非常重要的。

另外我们这些早年研究算法的人，虽然我们提供了某种可能性，但是离开了算力，这种可能性永远不能变成现实性。如果说我们过去做的很多事情是Toy Data的话，借助算力与大数据才能让算法真正走向实用，这是这一轮AI浪潮与前两轮最重要的一个差别。

Q2: 技术发展的核心影响因素有哪些？

张正友：

我认为基础研究是技术发展的根本。回到刚才讲的ABC，比方说A算法，这一轮的人工智能依赖于多层神经网络，其实多层神经网络在50年代就已经由Cornell的教授Rosenblatt提出了。深度学习之父Geoffrey Hinton在80年代CMU，也已经在研究改进神经网络的算法，而且一直持续到这一波人工智能的爆发，中间都没断过。可见算法是靠基础研究推进的。

B大数据，比方说视觉传感器CCD，1969年Bell Labs发明。C算力，半导体芯片也大概1959年左右Bell Labs发明的。这些技术是经过基础研究四、五十年的不断积累，往前推进出来的。没有这些基础研究，就没有我们今天享受到的技术的红利。当然，基础研究可以是在大学研究所，也可以是在大公司里面的实验室进行。

陈熙霖：

对于公众而言，往往更加关注技术带来的突变，但是对于真正参与了这场改变过程的人来讲，这些变化是每一天一点一点积累起来的，从基础研究到走向实用。

以计算为例，从集成电路的发明到中小规模、大规模、超大规模，到70年代初单个的CPU，从4004开始，到后来的8086、8088，再到现在的大规模的CPU，是一个渐变的过程。在渐变的过程当中，基础研究起了非常大的作用，即使是算力的提升，也不仅仅是大规模集成电路越做越大，单独就能解决的。

举个例子，现在CPU用的乱序执行、多层Cache、转移预测等技术，都是当年很多人做基础研究提出的方法，到了一定阶段，进入了实用的系统当中。所以基础研究是非常重要的，而基础研究的作用，往往是若干年以后才能体现出来的。

张正友：

应用需求对推动技术的发展也很重要。在40年代，IBM的总裁Thomas Watson认为，世界上只要5台计算机就够了，因为当时他没有看到大众的需求。

到了70年代，比尔盖茨创建微软，提出微软的使命是Put computer in every desk and in every home。现在大家看到这个目标已经实现了，不仅每家都有电脑，甚至每个人、每个口袋里都有电脑，就是手机。

结合应用需求推动产业发展，能提升技术的稳定性、实用性，以及经济效力等各方面的综合作用，才能让一个技术真正在生活中成为不可或缺。

陈熙霖：

这又讲到一个非常有趣的话题，就是关于需求、技术、产品的迭代关系。通常情况下，当需求变得旺盛的时候，价格就会下降。一个玩笑的说法，工业产品的价格最后是由原材料的成本决定的，因为只要量足够大，其他的成本都会慢慢地摊销掉，只有原材料摊销不掉。

当年一个“大哥大”很贵，而现在一个只有电话功能的手机，可以卖到一两百块钱，这就是需求、应用、技术的相互迭代。现在国际旅行，没有人再去想110V和220V，因为开关电源到哪去都一样。今天的充电器能多电压输出，可以自动协议协商，这些都是技术需求带来的便利。

技术带来可能性，而需求带来现实性，它们加起来改变了今天的生活，是从基础研究到产业到应用的全过程。

Q3: 互联新时代下人工智能技术还有哪些未攻克的难关？

陈熙霖：

什么是人工智能？我们老有一个参照系就是人的智能，可是人和人是千差万别的，机器要做到一个什么样的人？其实现在的人工智能系统，在很多单一问题上已远远超越了普通人的能力。但是从全面的能力来讲，人工智能系统可能还不如一个三岁的孩子。所以这取决于我们究竟对人工智能有什么样的期待。

现在智能技术用在某些产品已经越来越成熟。但如果说想制造出一个像孩子一样的机器人，我觉得这个路还非常长。而且人的智能也是一个演进的过程，包括我们的语言也在迭代演进。曾经大家不喜欢的冷词，若干年之后变成热词，热词经过若干年又可能变成了冷词。

机器如果不能够跟着演进学习，不能够去理解整个社会和场景，自动地从外界获取数据/信息，并且在它已有的知识上迭代，大概这个目标就很难实现。所以我觉得人工智能的突破取决于我们的目标是什么，但不管怎么样，今天的人工智能，已经在很多现实的应用中发挥着非常重要的作用。

以刚才正友讲的GPS为例子，尽管确切的GPS说法就是定位功能，但一般大众语境中的GPS其实包括两部分，一部分是定位，另一部分是结合定位和地图的行程规划。规划在人工智能里其实就是一个经典的问题，今天行程规划已经用得非常好了，甚至能根据当前的交通状态，预测抵达目的地的时间。这就是今天的人工智能，一方面是它的现实，另一方面有人们的期待，我个人觉得它有一个更长远需要不断努力奋斗的未来。

张正友：

人工智能在某些领域已经非常强大了，甚至超过了人类，比如下围棋。但是假如和人的智能相比，确实还有很多东西是需要不断改进的，差得非常远。

具体来讲几个需要持续探索的点。第一点，目前的人工智能更多是在视觉、翻译、语音识别等感知层面，但是在推理认知上还非常弱，这是技术需要推进的。

第二点，目前的技术还非常依赖大数据，但是很多场景数据不够多。如何把物理法则等人类已有的知识，融入到人工智能里面，目前还没有很清晰的解决方案。数据和知识相结合，可能会改变人工智能，提升普适性。比方说AI制药，分子和分子之间相互作用等数据不够多，但是AI可以和量子动力学、物理、化学等规则结合，使得AI制药更快地发展。完全依赖于湿实验，在实验室里研究化学与化学之间的反应，分析药物跟大分子结合的性能，太费时间了。AI制药如能减少这些实验，前景会很大。

Q4：AI大模型理论下人工智能下一阶段的突破点在哪里？

陈熙霖：

首先我认为大模型是一个积极的进步。大模型有更大的容量，它可以蕴含更多的数据和知识，在很多应用中，确实性能比小模型更好。

但是大模型不能解决所有问题，比如让孩子背唐诗背宋词，也许他能写一首唐诗宋词，但如果希望他通过背一个很长的文章去写一个长篇社论，大概是不可能的。换句话说，模型的容量和解决问题的规模，有一定关系。但当所需推理的问题的规模空间远远超越了模型能够容纳的空间，仅靠大模型是不够的。

总之如果不能分层，不能推理，单靠一个end-to-end（端到端）的大模型，它只能解决比现在大一点点的问题。但问题再大一点，依然会遇到瓶颈。

第二点，大模型由于它本身强劲的记忆，一些不太好的记忆也在里面，在某种方式下能够触发出来，形成所谓的攻击，可能会涉及隐私等问题。另外大模型从数据的收集训练到应用，对于算力、能源的消耗都太大了。所以如何把大模型做小、分层，这会是将来非常需要关注的问题。

张正友：

我觉得大模型至少有两方面的意义。第一，目前的人工智能依赖于深度学习，它的天花板在哪里，我觉得到目前为止还没达到极限。所以往大模型方向去做一些研究，知道老的方法极限在哪里，才能捅破天花板，对后续研发新的结构算法很重要。

第二，以前的模型更多地依赖于单模态。大模型可以把多模态的数据融合在一起，比如从文本生成图像或者视频，或者是语音和视频相关的信息结合起来，也是非常有意义的。

大模型也有很多问题，首先是消耗的资源远远超过我们大脑消耗的能源，显然是很不经济的。第二点，我认为大模型的容量还不够大，如果依赖于现在的大模型方法，是达不到人脑的容量，是无法接近人类智能的。因此研究分层或者模块化的新方法，以及如何让模块之间、分层之间能够更高效的结合，很重要。所以大模型既有重要意义，同时也需要思考新的方向。

Q5：在多模态探索中有哪些值得关注的案例？

张正友：

现在关于多模态比较火的比如输入文本就能够产生非常惊艳的图像，后续希望能看到产出视频、短视频等。

陈熙霖：

多模态的例子现在有很多，可以是x、y、z输入后的相互转化、相互推理。但我觉得多模态最大的价值还在于，人作为智能体感知世界就是多模态的。过去AI以单模态来感知世界，很难做到理解，比如说告诉你老虎，你是不会想起老虎的叫声的。当多模态去感知老虎的时候，它的行动、声音、图像同时给到，实际上是为AI理解做了一个很好的铺垫，即便这是一个比较低程度的理解。

换句话说模态和模态之间的关联，通过多模态的方式就很容易达到。为理解做准备，这是我个人更看重的价值。

张正友：

这也符合 psychology 提的 knowledge grounding。我们用文本描述苹果，要用很多文字讲苹果的形状、表面纹理等，但这仍然是不够究竟的东西。至于味道，就更难用文字讲清楚了。现在的多模态更多的是文本、图像和语音。以后多模态还可以有嗅觉、味觉，把五个感官数据都结合起来，就可能产生更深入的理解。

Q6：人工智能推理在行业发展中目前达到了什么样的程度？

陈熙霖：

今天讲的从感知到认知，认知里边的核心应该就是推理。这些年关于大图的表达、图谱的表达，甚至于基于网络的知识表达，都有很多进展，为实现推理提供了基础。

但对于物理世界的统一的表达，如果没有做好的话，推理研究就只能各做各的。研究推理和感知最大的一个差别在于大家对感知的输入几乎是相同的，而推理因为表达不统一，所以遇到了一些障碍。也许需要有更加趋于一致化的表达之后，关于推理的研究才能有更好的度量从而推进其进展，如同感知研究在过去这些年取得进展一样。

Q7：在全真互联的环境中，计算机视觉有哪些应用？

陈熙霖：

其实全真互联的 AR/VR 里，视觉技术的贡献还是相对有限的。因为全真互联环境要面对一些深层的、远程传输的对象，这时候需要识别的内容可能非常有限。

比如说我们人和虚拟世界的交互，可能更多地在于对人体的高精度的理解，包括动作的高精度的理解，特别是在操作交互的时候，这是非常重要的一件事情。

很多重要的AR/VR系统中，我们还要戴数据手套，如果不用佩戴任何装置在虚拟世界里感觉会更自然，但技术上还是有一定的挑战。另外我们不仅需要能看到，还需要能理解虚拟世界的物理属性。这样在操作的时候，能够对虚拟对象，特别是对虚实结合运动的理解更加逼真准确。这些是计算机视觉可以做贡献的地方。

张正友：

全真互联其实就是虚拟世界和真实世界紧密相结合的世界。随着全真互联往前发展，虚拟世界会越来越像真实世界。其中一个技术点是现实虚拟化，要把现实世界放到虚拟世界里面，让虚拟世界和真实几乎不可分。

这对计算机视觉技术的要求会越来越高，无论是几何的精度、表面特性、对光线的不同的反射特性等，都必须要有精准的建模，这是计算机视觉会发挥很大作用的地方。

当然还有其他重要的技术，比如全真互联里人和虚拟世界怎么更自然地交互。全真互联还包含虚拟人，如何让虚拟人更拟人更自然，更富有表情和个性化，目前技术在这些方面还不是很成熟的，需要往前探索。

Q8：未来的新技术在应用层面会有哪些改变？

陈熙霖：

大家现在非常关注的量子技术，尽管我个人觉得它短期内可能还很难用，但是量子计算将来一定会发挥很重要的作用。就像当年我们看ENIAC一样，也是一个巨大的装置，永远不要说什么事情不可能。

另外，计算可能会越来越便捷方便。计算技术本身从基本原理来讲，大概很难有根本性的改变，但是从装置来讲，还是会有很大的变化。包括交互的方式，今天的技术可能在未来成为一种自然的交互，变得无处不在。就像触摸屏，一开始大家也不觉得会这么普及。所以我觉得这些技术，将来都会对我们带来改变。

张正友：

现在我们从某角度讲是迈入了全真互联，但是目前更多还处于移动互联网。我预测AR眼镜将会是下一个计算平台，手机肯定还会存在，但是可能会慢慢被AR眼镜所替代。再下一步我认为是智能机器人。智能机器人将进入人类社会服务于人类，形成人机共存、共生、共赢、共创，和平相处的时代。

Q9：未来在机器人的参与下，人类的生活方式会有哪些改变？

张正友：

作为一个研究AI和机器人的科学家，我们不会去创造超越人类、替代人类的AI或机器人。所以首先要明确目标，AI和机器人技术都是为人类服务的。

第二，我觉得AI也不太可能超越人类，我们对人类自身的很多奥秘都还了解的太少，还是无知的，现在就谈超越是瞎想。更多地应该去想，怎样借鉴人类的能力，包括智力、机械方面的操作能力等，然后去创造更强大的AI和机器人，来服务人类。

陈熙霖：

我非常赞同正友的这些基本理念，超越人类这件事情，还是留给科幻作家们去考虑。我们这些研究者，要考虑的是怎么样在某个方面补偿人类的短板，而不是全面的超越。

机器人应该成为我们生活当中共生、共息、相伴的伙伴，帮我们解决问题，而不是制造问题。做人工智能实际是做一个有智能的装置，而这个装置应该是像人一样可以运动的，否则就不需要那么多复杂的智能了。包括今天讲的多模态研究等，都是为了创造这样一个人机共生、共息、相伴、相助的伙伴和环境。

文章来源：公众号【腾讯AI实验室】

Illustration by Manypixels Gallery from IconScout

腾讯首席科学家张正友对话中科院计算技术所陈熙霖：AI与机器人推进全真互联

Q1: 过去30年对人类生活改变比较大的技术有哪些？

Q2: 技术发展的核心影响因素有哪些？

Q3: 互联新时代下人工智能技术还有哪些未攻克的难关？

Q4：AI大模型理论下人工智能下一阶段的突破点在哪里？

Q5：在多模态探索中有哪些值得关注的案例？

Q6：人工智能推理在行业发展中目前达到了什么样的程度？

Q7：在全真互联的环境中，计算机视觉有哪些应用？

Q8：未来的新技术在应用层面会有哪些改变？

Q9：未来在机器人的参与下，人类的生活方式会有哪些改变？

作者信息

文章信息

上一篇

下一篇