云服务器价格_云数据库_云主机【优惠】最新活动-搜集站云资讯

中间件_la域名注册_精选特惠

小七 141 0

5分钟内NLP

自然语言处理(NLP)正风靡一时。NLP曾经是一个相对小众的话题,在过去的几年里,具有里程碑意义的新模型和应用将NLP带到了现实世界企业数据科学和人工智能的中心舞台。简而言之,NLPNLP是机器学习和人工智能的一个分支,它处理人类语言,更具体地说是在人类交流和计算机理解之间架起桥梁。NLP听起来像是一个非常小众的东西,但实际上却非常普遍。你可能在日常生活中遇到过一个自然语言处理系统,却没有意识到。NLP用例的一些常见示例如下:问答(搜索引擎)语音识别(Siri,Alexa)机器翻译-从一种语言翻译到另一种语言(谷歌翻译)信息提取-从非结构化和/或结构化数据中提取相关细节(如健康记录中的重要信息、可能影响交易的相关新闻等)情绪分析-检测文本的态度(积极、消极、中立)(企业在其社交媒体评论或客户服务等中使用)NLP的工作原理1对数据进行清理和预处理。在使用算法处理之前,文本数据必须经过清理和注释(标记)。清理通常包括文本规范化(转换为小写,删除标点符号等)、删除没有任何固有含义的词性(也称为"停止词"-例如a、the、for等)、简化并将单词转换为词根(通过词干分析或柠檬化-见下文),并将文本转换成更小的单位,称为"令牌"两种常见的清理文本的技术,通过切断后缀("词干")或将单词剥离到词根("柠檬化")2矢量化。由于机器学习模型只能处理数值输入,经过预处理后,文本数据转化为数值数据。传统的矢量化技术主要有计数矢量化和项频逆文档频率(TF-IDF)。计数矢量化涉及到计算每个单词在文档或文档部分(即不同的文本,如文章、书籍、段落等)中出现的次数。TF-IDF方法采用文档集大小的对数函数,以及一个单词在多少个文档中出现。然后乘以频率项得到分数。如果TF-IDF的分数很高,说明它很擅长区分文档第三种被称为单词嵌入的技术现在已经成为矢量化的主流方法。嵌入是一种单词表示法,它允许具有相似含义的单词通过映射到实数向量来具有相似的表示。与以前的方法不同,单词嵌入能够表示单词之间的隐式关系,这些关系在训练从上下文信息中获益的数据时非常有用。三。测试。一旦建立了一个基线("粗略草案"NLP模型),它的预测精度将使用测试子集进行测试。模型是使用训练子集建立的,然后在测试子集上进行测试,看看模型是否可以泛化-我们不希望一个模型只给出一个特定数据集的精确预测!NLP的未来自然语言处理是一个快速发展的领域(看看像Alexa和Echo这样的机器);Tractica的一份报告预测,利用人工智能的NLP软件解决方案的市场将从2016年的1.36亿美元增长到2025年的54亿美元。随着注意力机制等NLP架构的里程碑式突破,新一代NLP模型——所谓的变形金刚——已经诞生。下面的视频对这些突破进行了高层次的概述:鉴于我们在过去几年中看到的NLP体系结构的发展速度,我们可以预期这些突破将从研究领域转移到具体的业务应用程序。