博学谷人工智能AI进阶
近年来,脑科学与类脑智能已经成为世界各国研究的热点。记者从近日在天津召开的“类脑智能创新论坛”上获悉,我国也即将启动“中国脑计划”。自然语言处理技术是各种“脑计划”的核心技术之一,未来“中国脑计划”的构建也离不开中文语言处理核心技术的突破。
自然语言处理已到中级阶段
“简单来说,‘自然语言处理’就是让计算机能够像人一样使用语言文字。”山东大学文学与新闻传播学院教授盛玉麒介绍。“自然语言处理的基本任务是解决人机交互中涉及的各种技术问题。”中国社会科学院语言研究所研究员李爱军告诉记者,自然语言处理包括对文本信息的处理以及对语音信息的处理。
盛玉麒将自然语言处理研究与应用分为三个阶段:初级阶段的自然语言处理主要解决语言文字的输入、输出、存储、传输、显示、打印、编辑、检索等功能;中级阶段的自然语言处理就是让机器具有一定的智能,能够自动识别自然语言指令,按照指令完成信息检索、数据提取、查询、不同语言的自动翻译等;高级阶段就是智能化处理,速度、容量和正确率都能够达到接近人的程度。
目前学界和业界已经实现初级阶段的任务,中级阶段也取得了一些关键性突破,诸如电子词典、快译通、机器翻译等,体现了相关技术的产品化。盛玉麒谈到,不过,整体来看这些技术应用的正确率还不理想,自然语言处理的中级阶段还处在攻关过程中,离高级阶段的真正智能化目标还有较远距离。
规则与统计相结合
破解自然语言处理难题
如何才能让计算机像人类一样使用语言文字?杭州师范大学钱江学者讲座教授冯志伟研究自然语言处理已50多年,他表示,“为了使现实的自然语言成为可以由计算机直接处理的对象,我们都需要建立语言的‘形式模型’,使之能以一定的数学形式,严密而规整地表示出来,建立自然语言的‘计算模型’,使之能够在计算机上实现。”
李爱军告诉记者,完成自然语言处理要克服一系列难题,比如单语分析任务中语言的歧义性,远距离相关性,动态性,随意性以及多语任务中的语序差异性,语义集合的差异性,表达习惯差异性等。
就汉语而言,在歧义性方面,汉语的词形变化较少,语义的确定更多地依赖上下文及场景关系;而在随意性方面,汉语的语法结构更为灵活多变。“由于汉语的语言特征,学界在中文自然语言处理中面临更多难题。”多年来从事汉语自然语言处理的盛玉麒对此深有体会,汉语的自动分词、词性标注、规则提取、规则描写、歧义消解等方面是中文自然语言处理重要瓶颈。
基于这些难题,自然语言处理的研究历经从基于规则到基于统计、进而规则与统计相结合的发展过程。“早期为了配合基于规则的方法而建设的大量知识库为自然语言处理研究打下了很好的基础。但基于规则的方法难以覆盖大量的变体和适应快速的变化,由此兴起了基于统计方法的语言建模。”李爱军告诉记者。
盛玉麒强调说,基于规则与基于统计相结合的路线,成为自然语言处理领域的共识。