自然语言处理是什么,第1张

自然语言处理是计算机科学和人工智能领域的一个重要方向。它研究各种可以用自然语言实现人与计算机有效交流的理论和方法。自然语言处理是一门集语言学、计算机科学和数学于一体的科学。

自然语言处理是计算机科学和人工智能领域的一个重要方向。它研究各种可以用自然语言实现人与计算机有效交流的理论和方法。自然语言处理是一门集语言学、计算机科学和数学于一体的科学。所以这个领域的研究会涉及到自然语言,也就是人们日常使用的语言,所以和语言学的研究密切相关,但又有重要的区别。自然语言处理不是一般的研究自然语言,而是开发能够有效实现自然语言交流的计算机系统,尤其是软件系统。因此,它是计算机科学的一部分。

自然语言处理是什么,自然语言处理是什么,第2张

自然语言处理(NLP)是计算机科学、人工智能和语言学关注计算机与人类(自然)语言交互的领域。

详细介绍

语言是人类区别于其他动物的本质特征。所有生物中,只有人类有语言能力。人类的许多智力都与语言密切相关。人类的逻辑思维是以语言的形式存在的,人类的大部分知识都是以语言的形式记录和传承下来的。因此,它也是人工智能的一个重要甚至核心部分。

长期以来,人们一直在追求用自然语言与计算机进行交流。因为它既有明显的现实意义,又有重要的理论意义:人们可以用自己最习惯的语言使用计算机,而不用花费大量的时间和精力去学习各种不太自然、不太习惯的计算机语言;人们也可以通过它更多地了解人类的语言能力和智力机制。

实现人与机器之间的自然语言交流意味着计算机不仅能够理解自然语言文本的含义,而且能够在自然语言文本中表达给定的意图和思想。前者称为自然语言理解,后者称为自然语言生成。因此,自然语言处理一般包括自然语言理解和自然语言生成两个部分。历史上对自然语言理解的研究较多,但对自然语言生成的研究较少。但是这种情况已经改变了。

无论是自然语言理解,还是自然语言生成,都不是人们原本以为的那么简单,而是非常困难。从理论和技术的现状来看,通用、高质量的自然语言处理系统仍然是一个长期的目标,但对于某些应用来说,已经出现了具有相当自然语言处理能力的实用系统,其中一些已经商业化,甚至开始产业化。典型的例子有:专家系统的多语言数据库和自然语言接口、各种机器翻译系统、全文信息检索系统、自动文摘系统等。

自然语言处理,即实现人机之间的自然语言交流,或者实现自然语言理解和自然语言生成,是非常困难的。困难的根本原因在于广泛存在于自然语言文本和对话的各个层面的各种歧义或歧义。

中文文本是由汉字(包括标点符号等)组成的字符串。).单词可以构成单词,单词可以构成短语,短语可以构成句子,然后一些句子可以构成段落、小节、章节和文章。歧义和一词多义存在于上述所有层次:字符、单词、短语、句子、段落,或者在下一层到下一层,即一个形式相同的字符串可以理解为不同的单词串、短语串等。,在不同的场景或不同的语境中有不同的含义。一般来说,大多数都可以根据相应的上下文和场景来解决。也就是说,总体来说,不存在歧义。这就是为什么我们平时在自然语言中不会感觉到歧义,可以用自然语言正确交流的原因。但一方面,我们也看到,为了解决歧义,我们需要大量的知识和推理。如何完整的收集整理这些知识;如何找到合适的表格并存储在计算机系统中;以及如何有效利用它们来消除歧义,都是极其繁重和困难的任务。这不是少数人能在短时间内完成的事情,还需要长期系统的工作。

上面说的是一个中文文本或者一串中文字符(包括标点符号等。)可能有多重含义。它是自然语言理解的主要困难和障碍。反过来,相同或相似的意思也可以用多个中文文本或多个中文字符串来表示。

因此,自然语言的形式(字符串)与其意义之间存在多对多的关系。其实这就是自然语言的魅力所在。但从计算机处理的角度来看,必须消除歧义,有人认为这是自然语言理解的中心问题,即需要将潜在的歧义性自然语言输入转化为明确的内部计算机表示。

歧义的普遍存在使得人们需要通过大量的知识和推理来消除歧义,这给语言学和基于知识的方法带来了很大的困难。因此,几十年来,以这些方法为主流的自然语言处理研究在理论和方法上取得了许多成就,但在开发能够处理大规模真实文本的系统方面的成就并不显著。大多数已开发的系统都是小规模的研究演示系统。

目前存在两个问题:一方面,语法至今仅限于分析一个孤立的句子,没有系统研究语境和会话环境对这个句子的制约和影响。因此,在分析歧义、词语省略、代词指代、同一句子在不同场合或不同人说话时的不同含义时,没有明确的规则可循,需要逐步解决。另一方面,人们理解一个句子不仅仅是靠语法,还需要运用大量的相关知识,包括生活知识和专业知识,这些都是计算机无法储存的。因此,一个书面的理解系统只能建立在有限的词汇、句型和特定的话题之内;只有计算机的存储容量和运行速度大大提高,才能适当扩大计算机的范围。

上述问题已经成为自然语言理解在机器翻译中应用的主要问题,这也是当今机器翻译系统的翻译质量还远未达到理想目标的原因之一;翻译质量是机器翻译系统成败的关键。中国数学家、语言学家周海中教授曾在经典论文《机器翻译五十年》中指出:要提高机器翻译的质量,首先要解决的是语言本身而不是编程问题;用几个程序作为一个机器翻译系统来提高机器翻译的质量肯定是不可能的。另外,不知道大脑是如何对语言进行模糊识别和逻辑判断的,机器翻译是不可能达到“信、达、雅”的水平的。

相关内容

自然语言处理(NLP)是计算机科学、人工智能和语言学关注计算机与人类(自然)语言交互的领域。因此,自然语言处理涉及到人机交互领域。自然语言处理面临许多挑战,包括自然语言理解。因此,自然语言处理涉及到人机交互领域。自然语言处理中的许多挑战与自然语言理解有关,即计算机从人工或自然语言输入中得出的意义,以及与自然语言生成有关的其他问题。

现代NLP算法是基于机器学习,尤其是统计机器学习。机器学习的范式不同于以往语言处理的尝试。语言处理任务的实现通常涉及直接手工编码一大套规则。

许多不同种类的机器学习算法已经被应用于自然语言处理任务。这些算法的输入是由输入数据生成的一大组“特征”。一些最早使用的算法,如决策树,会产生硬的if-then规则,类似于手写规则,是一个常见的系统。然而,越来越多的研究侧重于统计模型,这使得每个输入元素都是软的,并且基于附加真实值的权重是概率性的。这种模型的优点是,它可以表达许多不同的可能答案,而不是只有一个相对确定性,并且当产生更可靠的结果时,它被作为更大系统的一个组成部分。

自然语言处理的研究逐渐从词汇语义成分的语义转向叙事理解。然而,人类层面的自然语言处理完全是人工智能的问题。相当于解决了中央人工智能问题,让电脑变得和人一样聪明,或者说是强大的AI。因此,自然语言处理的未来一般与人工智能的发展紧密结合。

相关技术

数据稀疏平滑技术

大规模的统计方法和有限的训练语料之间必然会存在数据稀疏的问题,从而导致零概率的问题,这符合经典的zip & # 8217f法。比如IBM,Brown:用366M英语语料库训练三元模型。在测试语料中,14.7%的三元模型和2.2%的二元模型没有出现在训练语料中。

数据稀疏的定义:“当分析包含训练语料库中从未出现过的配置时,就会出现数据稀疏的问题,也称为零频率问题。那么就不可能根据观测到的频率来估计概率,必须使用一些其他的可以从跟踪数据中归纳出(配置)的估计方案。——达甘.

为了使理论模型实用化,人们做了许多尝试和努力,一系列经典的平滑技术应运而生。他们的基本思想是“减少现有n-gram的条件概率分布,使不存在的n-gram的条件概率分布为非零”,数据平滑后必须保证概率之和为1,如下:

加一(拉普拉斯)平滑

添加一种平滑方法,也称为拉普拉斯定律,保证每个n-gram在训练语料中至少出现一次。以二元模型为例,公式如下:

其中v是所有二元模型的个数。

良好的图灵平滑

其基本思想是利用频率的分类信息来平滑频率。用频率c到c*调整n-gram的频率:

直接改善策略是“频率超过一定阈值的克不平滑,阈值一般为8~10”。其他方法请参考“简单好图灵”。

插值模拟

无论是Add-1还是Good图灵平滑技术,对待不平等出现的n-grams,必然是不合理的(事件发生的概率是有差异的)。因此,这里引入了线性插值平滑技术。其基本思想是将高阶模型与低阶模型线性结合,利用低阶n-gram模型对高阶N-Gram模型进行线性插值。因为当没有足够的数据来估计高元素n-gram模型的概率时,低元素n-gram模型通常可以提供有用的信息。公式如图1右侧所示:

扩展模式(与上下文相关)如图2右侧所示:

λs可以用EM算法估计,具体步骤如下:

首先,确定三种数据:训练数据、保持数据和测试数据;。

然后根据训练数据构造初始语言模型,确定初始λs(如果都是1)。

最后,基于EM算法对λs进行迭代优化,以最大化憋出数据的概率(如下)。

总结

基础理论

自动机形式逻辑统计机器学习汉语语言学形式语法理论

语言资源

语料库词典

关键技术

汉字编码词汇分析句法分析语义分析文本生成语音识别

应用系统

文本分类和聚类信息检索和过滤信息抽取问答系统拼音汉字转换系统机器翻译新信息检测

辩论

虽然上述新趋势给自然语言处理领域带来了成就,但从理论方法的角度来看,这些系统更多地依赖于统计方法和其他“简单”的方法或技能,因为它们难以收集、整理、表示和有效应用大量的知识。然而,这些统计方法和其他“简单”的方法似乎达到了它们的极限。因此,就目前而言,自然语言处理领域一个广泛争论的问题是:是应该主要通过理论突破来实现新的更大的进步,还是可以通过对现有方法的改进和优化来实现?答案还不清楚。一般来说,更多的语言学家倾向于前者的观点,而更多的工程师倾向于后者的观点。答案可能在中间,即基于知识和推理的深层次方法要与基于统计的“浅层次”方法相结合。

处理数据

自然语言处理的基础是各种自然语言处理数据集,如TC-语料库-train、用于文本分类研究的中英文新闻分类数据、IG-Chi-square等特征词选择方法生成的多维ARFF格式中文VSM模型、万篇随机抽取的中文DBLP资源、用于无监督中文分词算法的中文分词词库、UCI评价排序数据、带有初始化指令的情感分析数据集等。

加工工具

OpenNLP

OpenNLP是一个基于Java的机器学习工具包,用于处理自然语言文本。支持大多数常见的NLP任务,如识别、句子分割、词性标注、名称提取、组块、解析等。

FudanNLP

FudanNLP是一个主要为中文自然语言处理开发的工具包,也包含了针对这些任务的机器学习算法和数据集。LGPL3.0许可证用于该工具包及其包含的数据集。开发语言是Java。

功能:

1.文本分类新闻聚类

2.中文分词、词性标注、实体名称识别、关键词提取、依存句法分析、时间短语识别

3.结构化学习在线学习层次分类聚类精确推理

DABAN RP主题是一个优秀的主题,极致后台体验,无插件,集成会员系统
白度搜_经验知识百科全书 » 自然语言处理是什么

0条评论

发表评论

提供最优质的资源集合

立即查看 了解详情