华为云_香港低价服务器_最新活动

小七 2019年10月25日 21:23 141 0

在本博客中，我们将讨论其余的文本挖掘功能。可用于查找排名靠前的相关文档和术语的功能。

文档分类或分类

文本挖掘功能的一个类别是文档分类或分类。HANA中用于执行此操作的SQL函数是TM\u CATEGORIZE\u KNN.

TM\u CATEGORIZE\u KNN.

K-近邻算法用于根据与可用标记数据的相似性和接近程度对对象进行预测或分类。此函数根据类别集对输入文档进行分类。

K-近邻算法分类是文档分类。

需要一个先前分类文档的"参考集"获取输入文档并通过将其与引用集中的文档进行比较来返回最可能的类别KNN分类器从参考集合中确定K个最近邻或相似文档，然后对每个类别值的相似性进行求和和和标准化，以确定获胜类别值返回表包含目标文档的建议分类，权重（分值）

当一个新的数据点要分类时，企业软件正版化，计算它与每个标记数据点的距离。这是所有机器学习算法中最简单的一个，用下图解释。图1基于此算法预测新的数据点

图1:k-最近邻算法

图中我们需要预测数据点（绿色三角形）。在左侧，新数据点被分类为"1"类，自助建站系统哪个好，因为圆中的大多数最近邻都属于"1"类。而在右侧，新的数据点被分类为类别"0"，租用服务器，因为圆圈中的大多数最近邻居属于类别0。分类行为变化（类别1到类别0）随着考虑的邻域距离而偏离。

在这种情况下，我们将其固定到一个文档"Federal\ U award\ U id\ U number=1304684"。输入是作为全文索引的一部分进行的查询，文档编号是针对术语文档矩阵/文本挖掘索引运行的，以获取前5个最近邻。分数表示重量，值越高，文档的分类越好。

图2显示了函数TM\u CATEGORIZE\u KNN的结果。

图2:TM\u CATEGORIZE\u KNN的结果集

************************************************************************************************************术语函数

TM\u GET\u RELATED\u TERMS:此文本挖掘函数返回排名靠前的术语查询条件的相关术语，基于一组参考文献。

以上选项的说明见上一节。如果指定，则必须按此顺序使用选项"主成分"、"聚类"和"相关性"。必须始终将TOP指定为最后一个选项。

在这种情况下，输入的是一个术语"ocean"，它针对术语文档矩阵/文本挖掘索引运行，以提供排名前5位的相关术语。这是基于共现的。图3显示了函数TM\u GET\u RELATED\u TERMS的结果。

图3:TM\u GET\u RELATED\u TERMS的结果集

TM\u GET\u RELATED\u TERMS：此文本挖掘函数返回描述文档的排名靠前的相关术语。

有关上述选项的说明，请参阅上一节。如果指定，则必须按此顺序使用选项"主成分"、"聚类"和"相关性"。必须始终将TOP指定为最后一个选项。

在这种情况下，北京大数据研究院，我们将其固定到一个文件"Federal\u award\u id\u number=1304684"。输入是作为文档输入的，该文档针对文档矩阵/文本挖掘索引运行，以获取文档中的前5个相关术语。我们得到了相关的术语，规范化的术语，去掉了大小写和音调符号，术语类型是从文本分析中给出词性文本。这个例子说明了文本挖掘和文本分析是相辅相成的。图4显示了函数TM\u GET\u related\u TERMS的结果。

图4:TM\u GET\u related\u TERMS的结果集

TM\u GET\u suggered\u TERMS：此文本挖掘函数返回与初始子字符串匹配的排名靠前的项。此功能可用于提前键入或自动完成功能。

在这种情况下，云服务器和服务器，输入是一个术语，它与术语文档矩阵/文本挖掘运行，以获得前5个建议作为输出。图5显示了函数TM\u GET\u suggestived\u TERMS的结果。

图5:TM\u GET\u suggestived\u TERMS的结果集

文档函数请参阅上一篇博客[https://blogs.sap.com/2018/02/18/sap-hana-text-mining-functions-part1/]. 有关SAP HANA文本挖掘的详细信息，请参阅博客[https://blogs.sap.com/2018/02/16/sap-hana-text-mining/].

本文地址： /shichang/76546.html