游戏服务器_电信代理服务器_企业级

小七 2019年10月25日 21:23 141 0

大家好，

希望你也做得很好，也很安全

因为我看到了很多关于COVID-19数据分析和预测的帖子，有着相同的想法，我决定把我最近的工作主要放在COVID-19 tweets和数据的文本挖掘和文本分析上。

想法是从python连接twitter，将数据插入SAP HANA，并利用内置的SAP HANA在文本挖掘、文本分析、显示word cloud以及使用少量文本挖掘功能方面的强大功能。

我们看到人们在twitter上以不同的情绪表达他们的观点和想法，你知道我们有很多非结构化数据，要挖掘这一点确实是一项非常困难的工作，因此我选择了这个我想展示一些关于它的见解，希望你会喜欢，请随时分享你的建议和反馈。

twitter和HANA通信的技术流程–我们现在有了python，它将使我们的工作变得简单，并提供与SAP HANA+的平滑集成，使用了这么多内置的python函数用于挖掘和分析。

HANA ML Python API–有关HANA机器学习API的更多信息，请参阅SAP HANA文档。

前提条件：HANA ML安装环境+SAP HANA DB（启动并运行）

HANA ML安装-https://developers.sap.com/tutorials/hxe-ua-install-python-ml-api.html

我们一步一步走步骤

首先，我们需要一个twitter开发者帐户这是非常简单和直接的到twitter的开发者网址，并为自己设置一个应用程序，并保存在记事本中的某个地方提到的所有令牌成功创建twitter帐户后，您将看到下面的内容，请将它们放在手边并保存在记事本中

twitter开发者令牌

转到conda/python命令提示符并安装twitter API（根据您的舒适程度或喜好，python安装的API很少）执行以下命令管道安装夹管##如果成功，请执行以下命令检查导入tweepy作为twitter初始化所有令牌，给它们我们从twitter开发者帐户中注意到的值这将用于连接twitter消费者密钥='e6QvccFkjlkdsjlksadjlkjdsa'消费者密码='aslkdjsalkdjlsakd'token='1384909104-2ALAKDLSAKDLAKDSLKDSALKDSALADKADS'令牌\u secret='rT0ZEUdasldkasdkjsadlkalkdjlkdajlkdsa' 如果连接成功，就从twitter身份验证开始测试，根据标签下载几个tweet#通过密钥和秘密令牌对Twitter进行身份验证身份验证=twitter.OAuthHandler文件（消费者密钥，消费者密钥）身份验证设置\访问\令牌（令牌，令牌\秘密）#创建API对象-等待速率限制为真，以便我们可以下载tweets#没有任何连接中断api=推特.API（验证，等待速率限制=真）#创建一个tweet-让我们看看这个api.U状态更新（"嗨，从HANA ML API到Twitter-分析推文"）Tweeting using python–last command will post a tweet using my account

python和twitter之间的连接现在很好–让我们试着下载几条tweet，看看它是如何在客户端发送的，然后在发送到SAP HANA DB之前需要进行清理和一些格式化

尝试获取前10条tweet基于哈希标签（COVID19）&让我们得到：hashtag='#COVID19'日期='2020-06-30'推文=twitter.光标(api.搜索，q=hashtag，lang='en'，since=date，）.items（10）对于tweets中的tweet：对于范围内的i（长度(tweet.entities.get获取（'hashtags'））：打印(tweet.entities.get获取（'hashtags'）[i]['text']）

这里我们也在传递日期，大数据培训哪好，所以从6月30日开始，它会给我们10个项目，让我们看看输出。It这取决于你选择什么参数，你可以自由地改变散列标签。

如果你看到下面的图片主要是人们谈论的面具/航空旅行等，我们会看到本文详细分析了这只是为了检查我们是否可以下载tweet。现在对5K项目执行相同的命令推文=twitter.光标(api.搜索，q=hashtag，lang='en'，since=date）.items（5000）推特数据=[[推特.geo,推特.text,tweet.user.screen\u名称,tweet.user.location,tweet.u创建于,推特实体['hashtags']]用于tweets中的tweet]这将为你下载5000条推文，当然我们可以用这些数据做一些文本分析——你也可以下载5万条推文，这需要一些时间&把这5万条推文保存在excel表的某个地方，当然你可以尝试更多的文本挖掘功能。

列

地理位置（GEO Location）推文用户ID位置日期标签

创建一个数据帧来存储tweet

定义一个函数来获取Hash标签

tweet只处理Hash Tag列

让我们检查tweet\u df有多少条记录？它的（5000 X 6）

用于清理文本的Regex函数

让我们现在构建一些Regex来清理文本，然后再进行任何文本挖掘，也可以在将数据插入SAP HANA之前

应用Regex函数并清理文本

输出

如果您查看文本，云服务器，我看到大多数内容都是干净的，但仍有改进的余地，我在这里看到，如果我可以删除"嘿"，但HANA仍然要删除它使用停止词

保存数据帧