我所知道的中国NLP「破圈」十年

2020-07-23 09:24 1136 阅读 ID:71
量子位
量子位

现在,我们已经习惯了全球各类顶级学术会议上的中国力量。

从论文入选,到参会面孔,抑或赞助企业,中国代表几乎无处不在。

前不久刚落幕的ACL 2020也不例外。作为NLP领域最负盛名的国际顶会,今年虽在线上,但论文投稿数录用率方面,中国依然势头凶猛,投稿数1084篇领跑,录用率23.7%,仅次于美国。

在入围论文中,除了华人参与的研究斩获最佳论文,王海峰、周明、俞栋、刘挺等知名大牛的名字,也依然出现在多篇成果中。

这几乎已经成为了常态。

那一众科学家的努力,整整一代人的水滴石穿,是时候要被管中窥豹地讲一讲,是时候要让更多后浪记得,前浪改变时代的勇气和不易。

2010-2020,十年,一个时代。

也是中国NLP,完成「破圈」,披荆斩棘的光辉岁月。

起于微时,十年磨一剑

2010年7月11日,乌普萨拉,北欧国度瑞典的第四大城市,第48届ACL在此召开。

ACL,全称The Association for Computational Linguistics,国际计算语言学会,是自然语言处理领域最权威的国际学术组织之一。

创办近半个世纪,会员分布世界60多个国家和地区,吸引着全世界希望征服AI皇冠明珠的代代科学家。

但2010年现场,第一次参加ACL的百度工程师田浩的直观印象可以一言以蔽之:

“会议上的中国人不多。”

而且这种个体印象,也的确是真实现状的客观反映。

因为现在回顾起来,2010年的ACL,才第一次真正迎来中国科技公司参加。

那时候,从第一封电子邮件的发送算起,中国互联网的发展,已经有了23年的沉淀。

但是!

即便中国已是世界上网民数量最多的国家,但在互联网技术领域,中国却更多地处于跟随、模仿的状态,在最先进的互联网技术角逐中,中国互联网企业,声音微弱。

在最早对前沿技术的追逐中,也不例外。

比如,被誉为人工智能皇冠上的明珠、AI领域最具挑战的赛道之一的自然语言处理(NLP),中国乃至华人科学家,也经历了上述过程。

从学术角度来说,虽然1990年代开始,汉语和华人作者就已经在ACL中出现。

但早期的相关学术成果,大多数是对汉语内容的一种补充,缺乏在整体NLP领域中更具有突破性的成果。

同时由于起步相对晚,华人科学家们的学术成果累积也还不够,更别提“霸榜”和“刷屏”。

这也就是为什么,2010年的ACL现场,中国面孔寥寥。

然而,历史转折关头,也在2010发生。

这背后,与一家公司入场、一群科学家的星聚,密切相关。

群星荟聚,开风气之先

2010年,BAT之首、把「技术信仰」写进公司方方面面的百度,第一次把多方汇聚而来的科学家,送到了ACL现场。

创办历史超过半个世纪的ACL,第一次迎来中国互联网企业代表。

而且这个代表,没有“空手而来”。

王海峰和吴华,带着他们入选的论文而来。

这是中国互联网企业首次论文入选 ACL。

这样的荣誉,既是对最新研究成果的认可,也是对中国公司的激励。

同年,百度NLP——作为一个部门,由王海峰牵头,正式成立。

△2010年,百度NLP团队合影

其实在专门的部门成立之前,百度在NLP方面的研发工作一直在业务需求下进行,并没有构成体系。

今天业务部门需要分词技术的支持,研究人员就要进行相关研究……明天业务部门发现query(查询)需求分析能力的改善能够帮助流量提升,研究人员就会进行相关优化。

而成立NLP部门,既是对这种“指哪打哪”状态的扭转,更是对前沿技术攻坚决心的坚定。

NLP能干什么?2010年谁也说不准。

但十年之后,智能搜索、信息流、输入法、机器同传、智能音箱等各种日常刚需又方便每一个用户的产品,都将获益于NLP。

人才的创造力和影响力,也在这种“开风气之先”中得到聚变。

如果说2010年百度首发参与ACL,背后离不开王海峰、吴华等当时已有成就的技术专家的个人之力。

那么其后,这些科学家进一步达到的高度,则离不开“巨人肩膀”的助推之功。

从2011年开始,百度开始成为ACL官方赞助者,向全球NLP科学家表达诚意,也展示更加深度参与的决心。

其后2013年,王海峰出任ACL主席,获得一致认可,成为ACL五十多年历史上第一位华人主席(President)。

那年的ACL,举办地在保加利亚首都索菲亚举行,全球1000多名专家来到现场。

因为百度的带动,相比三年前,已经有了更多的中国面孔。

而这一次,ACL晚宴上的演讲,令他们内心激动万分,多年后仍记忆犹新。

当时王海峰以新任主席身份,发表了题为“Natural Language over Thousands of Years” 的主题演讲。

虽然全程英文,但完美讲述了中国悠久灿烂的历史文化和飞速发展的互联网技术,正在带来的时代之美。

在他演讲中,甲骨文、十二生肖、散氏盘、造纸、印刷、青玉案、兰亭序、曲水流觞、玄奘、四库全书、清明上河图等等,汉语所承载的中华文明,如一幅美丽的画卷徐徐展开。

而自然语言跨越几千年,自然语言处理技术与互联网结合产生了迷人成果,支撑了搜索引擎、电子商务、社交媒体的迅速发展。

王海峰在现场,以极富想象力的方式,展示了这些科技成果应用在古代的画面。

例如,“王羲之”利用互联网组织世界各地的人进行曲水流觞,生动形象地展示了语言处理技术对人们生活产生的巨大影响力。

于是,这次历史上ACL首位华人主席的致辞,也引发了历史性反响,引起了众多西方技术专家对中国文化的兴趣。

在NLP领域鼎鼎大名的Kenneth Church、Kevin Knight等顶级专家,纷纷表示要去中国看看王海峰致辞中提到的文物古迹。

而中国NLPer在ACL的精彩,也由此更上一层楼。

王海峰之后,2010年与他一同亮相的另一位百度科学家——吴华,出任2014年ACL年会的程序委员会主席(Program co-Chair)。

需要说明的是,在国际会议中,程序委员会主席承担着最重要的学术职责,代表着世界级的学术地位和影响力。

吴华的当选,背后是圈内同行对其学术成就的高度认可,也体现了百度在自然语言处理领域的技术实力和影响力。

其后,2016年,王海峰的另一位同事——百度高级技术总监赵世奇当选ACL秘书长,成为首位当选ACL秘书长的亚洲人。

同年年底,王海峰的多年相识,同为哈工大毕业的微软亚洲研究院副院长周明当选为ACL候任主席,进入ACL执委会。

中国NLPer的光芒和能力,终于在王海峰等打开局面后,真正被全世界看到。

而且「破圈」的故事,到此还不算高潮。

上述这些带领中国NLP完成全球影响力「破圈」的中坚科学家,也在思考另一件事情:

真正落地中国。

2018年,借着亚太地区尤其是中国在NLP领域的研究力量和成果突飞猛进的大背景。

国内NLP领域的学者们意识到,成立ACL亚太分会势在必行。

于是,百度王海峰、赵世奇,MSRA周明,以及其他有影响力的亚太学者一道,积极筹划推动,向ACL执委会清晰详尽地说明了成立亚太分会的必要性,以及对推动亚太地区NLP研究发展的重要价值。

最终获得ACL执委会的一致赞成——ACL亚太区分会(AACL)正式成立,并由王海峰出任AACL创始主席。

这对于整个中国NLP来说,无疑又是一个历史性的里程碑。

而且就在这些年中,中国的NLP,也完成了人才和产业落地的全方位积蓄。

随着百度NLP成立,大牛得以荟聚,王海峰、吴华等有了星聚基础。

后来腾讯AI实验室的开创者、华为诺亚方舟实验室的骨干、以及如今AI语音、语义理解、智能交互的一大批明星公司的创始人,也都先后聚集于此,让百度NLP真正成为了中国NLP领域的“黄埔军校”。

聚是一团火,散成满天星。

或许在百度以王海峰牵头成立NLP部门时,积极参与ACL,彼时也许更多出于企业的发展、技术的布局。

但十年之后回顾,中国NLP完成国际化「破圈」的十年,背后正是百度NLP不懈奋斗十年。

而且客观上,深刻影响并改变了中国NLP的学术、人才和产业格局。

这是如今中国NLPer闪耀 ACL,绕不过去的历史注脚。

百川东入海,山高人为峰

当然,2010-2020,中国NLP「破圈」的十年里,百度作为企业发挥了基石作用,而当今的CTO王海峰在其中的领军作用,则不得不提。

他是AI学术领域的高山,也是智能产业领域中的明珠。

在升任百度CTO时,李彦宏的全员内部信,也清晰言明了他这一路的成绩:

为百度创建了自然语言处理部、互联网数据研发部、推荐和个性化部、多媒体部、图片搜索部、语音技术部等,作为执行负责人协助创建了百度深度学习研究院。他还是自然语言处理领域最具影响力的国际学术组织ACL历史上首位出任过主席的华 人,也是唯一来自中国大陆的ACL会士。

但既然这次感慨的是中国NLP与ACL的十年,可能也需要更进一步补充一些“历史进程中”的王海峰。

最核心的问题只有一个:王海峰为何能成为ACL首位华人主席?

或者拆解开来,ACL为什么一直没有华人主席?又为什么会在2013年出现一位华人主席?

这需要从两方面说起。

一方面,成为ACL主席需要什么。另一方面,王海峰做了什么。

从普通人的角度来看,出任ACL主席似乎是一种荣誉。实际上,ACL主席并非是一个奖励性的名号,而是一种切实的责任。

ACL作为拥有数千名成员的国际学术组织,就像一所高校或一家企业一样需要有人进行领导决策、制定目标与方向,带领整个NLP领域继续向前。

因此 ACL主席评选取向需要从两个方向参考,一个是科学家自身的学术贡献,另一个是科学家的组织能力。

其中科学家自身的学术贡献,最直观的自然是是学术能力——发了几篇论文、提出了哪些有突破性的想法等等。

但在国际顶会组织中众望所归,学术之外,还需要有“服务精神”。

所谓的“服务精神”是一个非常西方化的概念,意味着领导者不仅仅要有责任感、能够付出足够的时间与精力去代表民意发声,很多时候还要站在其他个体的角度去思考一些细节化的问题。

同样就职于百度并担任着ACL秘书长的赵世奇表示,服务于ACL这样的学术组织需要分出一定的时间和精力,去关注如何帮助ACL向外发声、吸引更多会员,同时也要从人类文明发展的角度关注学术平等,给予学术能力欠发达地区更多扶持。

这也是为什么ACL主席要采取一年一任的轮换制的原因,ACL希望用这种方式,让来自不同地区的科学家带来不同的视角。

至于科学家的组织能力,则要考量科学家能否承担起学术活动的组织任务。

这要求科学家除了醉心学术以外,还要有足够的领导能力和社交能力,尤其是能够与多个国家和地区的科学家进行流畅的沟通。

如此,基本上就不难理解——为什么ACL之前一直没能出现华人主席了。

之前也说了,中国NLP真正起步并不早,而且建立在缺乏国际交流条件的背景之下,此前的华人科学家自然也很难做到充分了解世界各地学术发展状况,更不容易建立自身对于组织管理的能力。

毫不夸张地说,在很长一段时间里中国NLP学术和NLP领域的科学家,与整个世界是相割裂的。

十几年间,从与世隔绝到走到舞台中央,中国NLP学术的奋斗过程几乎带了几分史诗感。

《AI已来:让中国AI走向世界的王海峰》中提到,在王海峰的记忆中,2006年可以算是一个分水岭。

2005年,ACL在美国密歇根举办年会时,国内只有四位科学家前往,这四位中除了当时来自东芝的王海峰和朱江外,还有两个来自微软亚洲研究院的熟悉面孔。

当时这一队来自中国的“珍稀动物”,大概只带来了三篇被收录的论文。

但到了2006年,ACL在悉尼举办年会时,来自中国的论文数量大幅增长,光是王海峰的东芝组就投了五篇论文,并且五篇都被收录了。

此后ACL中的中国声音,就如同被按下了放大键,一路高歌向前,不断加码。

除了自身对于学术界的奉献精神以外,王海峰也意识到了中国力量在ACL这样的学术组织中地位的变化——中国的学术能力在崛起,可在学术影响力上却稍逊一筹。

于是王海峰想到,自己竞选ACL主席,能够在这一方面进行一些拉动,让中国NLP不仅仅拥有学术成果,还能在学术界拥有更多话语权和撬动力。

根据《AI已来》一书中的说法,除了王海峰自身的成就和影响力,王海峰还将能够当选的原因归结为两方面:

一方面是中国科学家在ACL的参与越来越频繁,随着被收录论文数量的增加,ACL开始对中国声音加以重视。
另一方面是他在百度的任职,代表了“中国科技企业”,当时整个世界开始发觉中国科技企业所蕴含的创新能量,开始关注起中国科技企业。

最后,自然也与王海峰个人的勤奋密不可分。

后来成为王海峰第一个博士生的郭江,在2010年曾经在百度NLP实习。

在他的印象里,那时的NLP非常小,只有二三十人,王海峰就和团队里所有人一样,坐在开放区办公,每天早早地来到公司,一整天都直直地挺着脊背。

一个几十人的团队,一位低调勤奋的领导。这样的画面怎么看都波澜不壮阔,与“创新”“机会”、“改变”这些关键词都毫无关系。

可事实却恰恰相反,在百度,后来世界上第一个互联网神经网络翻译系统、世界上最大的知识图谱、助力无数合作伙伴的百度大脑语言与知识开放技术、小度机器人、大量科技企业争相刷题竞争的阅读理解数据集DuReader等等,都是在这个当时看似不起眼的团队逐渐成长、逐渐孵化出来的。甚至可以说,百度AI的诞生,就从这里开始。

今天谈论起百度与王海峰时,人们总说百度的技术基础、技术信仰和价值取向,与王海峰此前作为NLP科学家的能力累积是非常契合的。

但从王海峰在百度NLP进行的一系列技术累积和前瞻布局来看,双方的契合程度远不止“学术能力”与“场景需求”。

同时也在于王海峰本人对于AI技术发展趋势的预判,和百度对于这一系列判断的信任和支持。

你可以说王海峰主导了百度NLP变革,也可以认为百度真正成就了王海峰。

但就在这种相互作用之间,中国NLP的「破圈」十年,真正得以实现。

现在,是时候乘风破浪了。

—完—

@量子位 · 追踪AI技术和产品新动态

深有感触的朋友,欢迎赞同、关注、分享三连վ'ᴗ' ի ❤

免责声明:作者保留权利,不代表本站立场。如想了解更多和作者有关的信息可以查看页面右侧作者信息卡片。
反馈
to-top--btn