欢迎大家来到IT世界,在知识的湖畔探索吧!
自然语言处理技术是人工智能的主要分支,并且在很多行业中得到了广泛的使用,为了能够更好地使用自然语言处理技术,需要明白自然语言处理技术定义与分类。
一文读懂自然语言处理技术定义与分类
欢迎大家来到IT世界,在知识的湖畔探索吧!
自然语言处理,英文Natural Language Processing,简写NLP。其中的“处理”指的是计算机处理,但计算机无法像人一样处理文本,需要有自己的处理方式。因此自然语言处理,简单来说即是计算机接受用户自然语言形式的输入,并在内部通过人类所定义的算法进行加工、计算等系列操作,以模拟人类对自然语言的理解,并返回用户所期望的结果。按照维基百科的说法,NLP发源于1950年。图灵于该年提出“图灵测试”,用以检验计算机是否真正拥有智能。
根据NLP的目标,大致可以将其分为自然语言理解(NLU)和自然语言生成(NLG)两种。
NLU侧重于如何理解文本,包括文本分类、命名实体识别、指代消歧、句法分析、机器阅读理解等。
NLG则侧重于理解文本后如何生成自然文本,包括自动摘要、机器翻译、问答系统、对话机器人等。
一文读懂自然语言处理技术定义与分类
两者间不存在有明显的界限,如机器阅读理解实际属于问答系统的一个子领域。
大致来说,NLP可以分为以下几个领域:
文本检索:多用于大规模数据的检索,典型的应用有搜索引擎。
机器翻译:跨语种翻译,该领域目前已较为成熟。目前谷歌翻译已用上机翻技术。
文本分类/情感分析:本质上就是个分类问题。目前也较为成熟,难点在于多标签分类(即一个文本对应多个标签,把这些标签全部找到)以及细粒度分类(二极情感分类精度很高,即好中差三类,而五级情感分类精度仍然较低,即好、较好、中、较差、差)
信息抽取:从不规则文本中抽取想要的信息,包括命名实体识别、关系抽取、事件抽取等。应用极广。
序列标注:给文本中的每一个字/词打上相应的标签。是大多数NLP底层技术的核心,如分词、词性标注、关键词抽取、命名实体识别、语义角色标注等等。曾是HMM、CRF的天下,近年来逐步稳定为BiLSTM-CRF体系。
一文读懂自然语言处理技术定义与分类
文本摘要:从给定的文本中,聚焦到最核心的部分,自动生成摘要。
问答系统:接受用户以自然语言表达的问题,并返回以自然语言表达的回答。常见形式为检索式、抽取式和生成式三种。近年来交互式也逐渐受到关注。典型应用有智能客服。
对话系统:与问答系统有许多相通之处,区别在于问答系统旨在直接给出精准回答,回答是否口语化不在主要考虑范围内;而对话系统旨在以口语化的自然语言对话的方式解决用户问题。对话系统目前分闲聊式和任务导向型。前者主要应用有siri、小冰等;后者主要应用有车载聊天机器人。
知识图谱:从规则或不规则的文本中提取结构化的信息,并以可视化的形式将实体间以何种方式联系表现出来。图谱本身不具有应用意义,建立在图谱基础上的知识检索、知识推理、知识发现才是知识图谱的研究方向。
文本聚类:一个古老的领域,但现在仍未研究透彻。从大规模文本数据中自动发现规律。核心在于如何表示文本以及如何度量文本之间的距离。
基本技术:
分词:基本算是所有NLP任务中最底层的技术。不论解决什么问题,分词永远是第一步。
词性标注:判断文本中的词的词性(名词、动词、形容词等等),一般作为额外特征使用。
句法分析:分为句法结构分析和依存句法分析两种。
词干提取:从单词各种前缀后缀变化、时态变化等变化中还原词干,常见于英文文本处理。
命名实体识别:识别并抽取文本中的实体,一般采用BIO形式。
指代消歧:文本中的代词,如“他”“这个”等,还原成其所指实体。
关键词抽取:提取文本中的关键词,用以表征文本或下游应用。
词向量与词嵌入:把单词映射到低维空间中,并保持单词间相互关系不变。是NLP深度学习技术的基础。
文本生成:给定特定的文本输入,生成所需要的文本,主要应用于文本摘要、对话系统、机器翻译、问答系统等领域。
免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。 本文来自网络,若有侵权,请联系删除,如若转载,请注明出处:https://itzsg.com/138377.html