下面的例子应该是为许多python用例直接修改的。实际上只有几个步骤,创建一个docker(如果你需要额外的python库),大数据分析系统,配置python操作符,代码,以及输入和输出。
有一个很好的博客描述了如何创建一个简单的docker,所以我不在这里重复了。下面你可以看到我的docker定义。
让我们采用我们以前开发的管道,但是现在我们将切换Python的JavaScript。
将Python3Operator放在画布上,淘客链接,显示没有输入和输出,对于大多数管道,您可能需要修改它。上面的JavaScript操作符有一个名为input(message)的输入和一个名为output(message)的输出,我们需要类似于Python的东西。
我发现将数据作为blob获取到Python中是最简单的,因为我遇到了字符编码问题,使用blob数据类型避免了这个问题,我们将连接到它。
我们希望python操作符的输出是一条消息,这样我们就可以像以前一样停止管道运行。
现在我们有了一个python操作符,定义了我们的输入和输出
这是我在操作符中使用的Python3代码,该代码相当于我之前共享的JavaScript示例
这个我发现,指定Python3Operator应该使用pandas docker图像的最简单方法是使用"Group"功能。然后我们可以使用与我的docker相同的标记来标记组,返利app下载,将它们链接在一起。只需右键单击python操作符并选择Group。现在我们可以看到标签。
管道完成后,我们可以保存它(使用新名称)并运行它。一切顺利,管道应该完成,我们将看到与以前相同的数据。
这里有几个链接,物联网的,你可能想参考。
开发一个自定义的管道运营商与自己的Dockerfile
自动化与SAP数据智能网络数据采集
希望它是有用的人。
,何为大数据