四年后的今天,年过八旬、满头银发的他依旧容光焕发。作为我国计算语言学的开拓者之一、世界上第一个汉语到多种外语机器翻译系统的研制者,他仍然紧跟技术前沿,活跃在语言学跨学科研究领域。
在参加9月7日首届人工智能与国际传播高层论坛前夕,国家教育部语言文字应用研究所研究员、博士生导师、学术委员会委员冯志伟回顾了他运用技术赋能语言学研究、探索机器翻译促进国际交流的不凡之路。
文理兼修:“别人觉得我是个怪人”
“计算语言学我已经做了很多年,我原来是学理工科的,在北大读的是地球化学专业,当时看到美国在搞机器翻译,我觉得很奇怪,文科现象怎么能够用机器来做,当时我觉得这个很有意思。另外我也觉得语言的障碍是人类一个很重要的问题,所以能够用机器来做挺好,后来就改行了,学语言学。”
这还要从1957年说起——当时18岁的冯志伟考入北京大学地球化学专业,课余时间喜欢钻进北大图书馆探寻学术前沿。有一次,他在外文图书室看到了美国语言学家乔姆斯基的论文《语言描写的三个模型》。一篇语言学论文发表在自然科学的信息论杂志上,这让冯志伟感到特别好奇。他怀着极大的兴趣通读了全文,认识到这是乔氏应用数学中的“马尔科夫链”来描述自然语言的生成过程,为语言建立了一套独特的数学模型。
凭着满腔热爱,身为家中长子的冯志伟不顾家人盼着他早日工作赚钱的期望,几经波折于1959年成功转到了中文系语言学专业,在这个文科一年级从头学起,开始了小规模的基于规则的机器翻译研究。
如今备受推崇的跨学科研究,在当时让冯志伟成了别人眼中的“怪人”:一个学中文的去研究数学?一个读中文系的在忙着看外文书?考取北大研究生后,冯志伟想研究数学方法在语言学中的应用,连导师一开始都不太同意这既不是理工科又不像文科的论文选题;不仅如此,这位中学积极上进的团支部书记还被当成了北大的“落后分子”。
早期的困难和“文革”的冲击并没有冲淡冯志伟的热爱。1967年北大研究生毕业后,他到天津、昆明的中学任教,期间尽管工作不涉及语言学,但冯志伟仍是研究不辍,通过手工计算估测出汉字的“熵”。原理上讲,计算出汉字的“熵”,才能给汉字编码,才能在计算机上自由地输入、输出和传输汉字。他的这些努力为20世纪80年代汉字的双字节编码提供了可靠的语言学理论支持。
放眼世界:“中国已进入世界计算语言学的前列”
“国际计算语言学会议六几年就开始了,82年我们才首次出席……现在情况不太一样,特别是进入21世纪以后,我们这个学科发展很快,一些文科单位、科学院、高等学校有好多人做,一些公司也开始做,也做得不错,所以到了21世纪以后,中国人在国际计算语言学上的发言权是很大的,我们中国人可以说现在已经进入了世界计算语言学的前列。”
1982年去布拉格出席国际计算语言学会议的中国学者正是时任中国科学技术信息研究所计算中心软件工程师的冯志伟。
时间回溯到四年前的1978年——全国科学大会召开,在“尊重知识、尊重人才”口号的感召下,冯志伟又历经一番努力考入中国科技大学研究生院。当年,39岁头发已白的他又争取到了留法的机会,学习数理语言学和机器翻译。师从国际计算语言学学会首任主席沃古瓦,他倍加珍惜宝贵的学习研究机会,给自己规定了“887工作制”:每天8点上班,晚上8点下班,一周7天工作无休。留法期间,他利用当时先进的大型计算机进行了大规模的基于规则的语言学研究,提出了多叉多标记树形图模型,并在此基础上研制出了世界上第一个从汉语到多种外语的机器翻译系统——“汉—法、英、日、俄、德”多语种翻译系统。在布拉格的会议上,冯志伟介绍的正是这一具有里程碑意义的研究成果。
几年后,冯志伟调入国家语委语言文字应用研究所(现属教育部)担任计算语言学研究室主任,同时在中国科学院软件研究所担任兼职研究员;后又赴德国从事术语数据库研究,研制成世界上第一个中文术语数据库。
1998年退休后,冯志伟仍心系学术研究、胸怀国际交流。2000-2002年,他赴韩国科学技术院担任客座教授、为博士生授课;2005年,与人合译出版《自然语言处理综论》;2011-2015年,参与修订汉语拼音出海的国际标准《中文罗马字母拼写法》ISO-7098;他还对国内外自然语言处理的研究成果进行了系统梳理,写成了基于规则与基于统计的自然语言处理方法的专著《自然语言计算机形式分析的理论与方法》,后又应世界上最大的科技出版社之一——德国斯普林格出版社邀约,将这本书译成英文出版。
如今,一直致力于利用跨专业之砖砌筑“巴别塔”的冯老也没有忘记沟通中外的初心。“面对新技术带来的新形势和新变化,应当学习翻译技术,把新技术也纳入到翻译工作中。人工智能翻译成绩巨大,应当提倡‘机器翻译+译后编辑’,加强译后编辑的作用,实现机器翻译与人工翻译和谐共处、相得益彰。”冯老还提出建议,作为国际传播的一部分,有必要加强古代典籍汉译外语料库建设。
在讲述自己担任ISO-7098国际标准国际工作组组长和应邀出版译作的经历时,冯老还不忘感慨和叮嘱几句:“做国际传播,一定要知己知彼,了解对方的情况,”“要尊重对方的意愿,不要强加于对方。”
唯有热爱:“我得到精神上的满足”
“中国的计算语言学早期做的人少。我是爱好,做这个是属于散兵游勇似的,也得不到什么好处。这件事完全是兴趣,好奇心大于功利心,基本上功利心就是政府供我吃饭就行了,但是我好奇,我得到精神上的满足。”
如今再回忆起峥嵘岁月,这位“巴别塔”上的中国计算语言学先锋只字未提自己曾经荣获的多个国内外重量级奖项,他面带满足、眼里闪着光的讲述中提到最多的词就是“兴趣”和“爱好”。
谈起人工智能大模型和Transformer一统自然语言处理等最新发展,这位中国计算机学会高级会员表示自己一直都在密切关注和学习领域内的最新发展成果,还立马分享了一篇带着期刊清样修改痕迹的论文,表示这篇关于“记忆负担最小化机制”的论文就是关于轻量化发展趋势的。
我国计算语言学经历了基于规则、基于统计和基于神经网络的三个时期,冯老站在学科发展的角度总结道。他表示,从准确率角度来看,新方法效果不错,但由于基于大量语言数据和参数,未来应在轻量化方向上着力,同时也要重视语言知识规则、兼顾理性主义研究来确保可靠性、增强解释性。
他还表示,虽然如今我国在该领域国际地位很高,但目前的研究基本上是跟踪性的,缺乏创新,应加强创新性的研究。
冯老坦言,现在条件更好了,不只是物质层面,更有国家层面的支持和提倡。
“过去我是在研究当中得到乐趣,但我这个乐趣别人也不知道;现在情况不一样了,现在政府公开提倡文理结合,再也不会给你戴什么帽子,也不会说你是‘落后分子’。现在年轻人条件好,只要努力,前途光明。”
他宽慰年轻学子们不必担心人工翻译会被机器翻译取代。在冯老看来,对于普通的文本,‘机器翻译+译后编辑’可以提供助力,但是,对于优秀的文学作品、国家重要文献、领导人的著作,还是需要人工翻译才能保证传播质量。
同时,他也劝勉年轻学子们“要进行知识革新的再学习,使自己成为一个文理都懂的人”。
“这个也是国家对你们的希望,新文科就是这样,我觉得是前途光明的。”冯老语重心长地说。