企业网站_cdn上市公司_免费领

小七 2019年10月25日 21:23 141 0

在这个博客中，我将讨论如何在saphana中创建自定义词典。为了实现某些定制用例，客户必须实现自己的字典来执行文本分析。

用例：一家公司在产品组合中有n个产品，交通大数据，大数据分析学习，这些产品没有完全被标准配置覆盖。在这种情况下，他们可以使用实体类别产品创建自定义词典，并将所有产品名称添加到产品组合中。

SAP HANA附带了几个预定义的标准文本分析配置。"中提供了此类配置"sap.hana.ta文件.config"存储库包，好评返现卡，如图1所示。有关标准文本分析配置的详细信息，请参阅博客[https://blogs.sap.com/2018/02/01/sap-hana-text-analysis-3/].

图1：标准文本分析配置

实现自定义词典的步骤

*********************************************************************************************************步骤1：创建自定义词典

词典包含多个用户定义的实体类型，全国大数据中心，每个实体类型还包含任意数量的标准和变量类型的实体。简单地说，大数据汇总，dictionary以结构化的方式存储名称变体，以便通过提取过程进行访问。字典是独立于语言的，可以为所有34种支持的语言创建。

字典文件必须是XML格式，并遵循以下指定语法：

创建字典时需要指定的三个参数：

类别名称实体的标准形式：这是给定实体的完整或精确形式实体的变体名称：这是给定实体的非标准形式

下面的图2显示了为执行自定义文本分析而创建的自定义词典。

图2：自定义词典文件

*********************************************************************************************************************步骤2：更新配置文件或创建自定义词典指定自定义词典的配置文件

自定义文本分析配置可用于使用自定义文本分析词典和提取规则集执行自定义文本分析。创建扩展名为".hdbtextconfig"的自定义文本分析配置文件。配置文件也是XML格式的。

下面是一段代码，以XML格式显示文本分析步骤的顺序。

在这个配置部分，可以使用以下分析器：

"FormatConversionAnalyzer"用于执行文档转换"StructureAnalyzer"用于取消标记和语言检测。这将执行标记移除、空白规范化和语言检测"语言分析器"用于进行语言分析，包括标记化、词干识别和词性标注"ExtractionAnalyzer"是一个可选参数，用于实体/关系提取"语法角色分析程序"也是一个可选参数，用于识别元素之间的功能关系

在我们的示例中，自定义文本分析配置在SAP HANA存储库中管理。下面的图3显示了启用了自定义词典的突出显示的属性部分，并包含自定义字典路径。

图3：自定义配置文件

字典创建于"sap.hana.ta文件.dict"在中创建存储库包和文本分析配置"sap.hana.ta文件.config"存储库包，如下图4所示。

图4：存储库路径

*******************************************************************************************************************************

此自定义表单用于从文本和感兴趣的实体（包括人员、地点、公司、URL和其他常用术语）中提取基本实体。

下面的图5显示了Tau rule列中作为实体提取的规则，其中包含新的类别名称和名称可用的基本实体。

图5：自定义配置-实体提取

总之，我们介绍了如何在SAP HANA中创建和实现自定义词典的详细步骤，以便在某些自定义用例中执行文本分析。

本文地址： /cunchu/76075.html