在这里,我想构建一个管道,永久免费自助建站软件,从internet检索经济指标,对其进行处理,然后加载到SAP数据智能中的SAP Vora引擎中。
我将用于此管道的管道组件是
消息生成器–将URL传递到HTTP客户端HTTP客户端–下载带有汇率的CSV文件JavaScript–删除5个标题行多路复用器–分割管道以提供多个输出Wiretap–在屏幕上查看管道数据Vora Avro摄取器–将数据加载到Vora中写入文件–将数据持久化到HDFS、S3或其他存储中图形终止符–停止图形连续运行
欧洲央行(ECB)提供了我们将在管道中使用的统计数据仓库。
图1:欧洲央行网站
然后我们可以获取所需的提要,在我的例子中,我选择了每日美元兑欧元的汇率
?系列\u键=120.EXR.D。美元欧元SP00.A&type=csv
图2:欧洲中央银行,csv数据,大数据时代纪录片,有5个标题行
我们可以在一个简单的javascript消息生成器中使用下面的代码传递url和方法,
使用datahub Pipeline HTTP客户端操作符。我们不需要指定任何字段,因为它们是由上面的javascript填充的。
我已经将超时时间增加到25秒,请求超时时间(毫秒)增加到25000毫秒
图3:HTTP客户端
我们现在可以用接受任何输入类型的WireTap来测试它。
图4:Skeleton Pipeline
保存管道后,我们现在可以运行这个程序了。
图5:保存管道
创建以"."为前缀的文件名将自动创建所需的存储库文件夹结构。
图6:存储库结构
我们可以按run,我们应该看到它在底部运行
图7:运行管道
管道正在运行,我们打开窃听界面
图8:打开窃听界面
我们可以看到我们的数据被返回到屏幕
图9:窃听输出中的CSV
管道将永远继续运行,所以你应该停止它。
我们用多路复用器扩展管道并写入文件
图10:HDFS配置
如果目录结构不存在,行业大数据分析,则自动创建它。,和是可用于创建文件名的内置变量。我们可以重新使用已定义的连接。
重新运行管道将CSV文件保存到HDFS。
我们可以使用Data Intelligence Metadata Explorer浏览HDFS中的输出。
我们可以看到有许多头行需要处理。
使用一段简单的JavaScript就可以让我们做到这一点,
下面的大部分代码是JavaScript操作符2的框架,我们只需要正文中的行来实际去掉标题
我们可以保存并重新运行我们的作业,并用WireTap或Discovery检查输出
我们现在可以进一步扩展管道,通过使用Vora Avro摄取器加载到SAP Vora。不管名称是什么,这个操作符实际上使用JSON、CSV和Avro文件格式。
Vora Avro摄取器需要Avro模式,模式告诉Vora表名、列、数据类型和规范,我们需要提供这个,如下所示。
DefaultAvroSchema:
Vora Avro摄取器的其他参数TA映像如下所示。
重新运行此管道会产生错误,当我们尝试在数字字段中插入"-"时,
我们可以添加以下额外的JavaScript行来纠正这个问题。
如果我们现在重新运行我们的管道,我们可以检查Vora工具,查看模式和表已经创建,云服务器和普通服务器,数据也已经加载。
但是管道将继续运行并重新下载相同的内容数据并连续插入到我们的Vora表中。要更改此行为,我们需要在现有的JavaScript操作符中提供一个提交令牌。Vora Avro摄取器然后将其传递给图形终止器。
完成的管道将如下所示。
现在重新运行它,我们可以看到管道完成了,一切都很好
我编写了一个替代解决方案,我使用Python而不是JavaScript,可以在这里找到。
使用SAP Data Intelligence pipeline Python操作符
,物联网+