云服务器价格_云数据库_云主机【优惠】最新活动-搜集站云资讯

游戏服务器_电信代理服务器_企业级

小七 141 0

云主机网站_有哪些_物联网公司有哪些

大家好,

希望你也做得很好,也很安全

因为我看到了很多关于COVID-19数据分析和预测的帖子,有着相同的想法,我决定把我最近的工作主要放在COVID-19 tweets和数据的文本挖掘和文本分析上。

想法是从python连接twitter,将数据插入SAP HANA,并利用内置的SAP HANA在文本挖掘、文本分析、显示word cloud以及使用少量文本挖掘功能方面的强大功能。

我们看到人们在twitter上以不同的情绪表达他们的观点和想法,你知道我们有很多非结构化数据,要挖掘这一点确实是一项非常困难的工作,因此我选择了这个我想展示一些关于它的见解,希望你会喜欢,请随时分享你的建议和反馈。

twitter和HANA通信的技术流程–我们现在有了python,它将使我们的工作变得简单,并提供与SAP HANA+的平滑集成,使用了这么多内置的python函数用于挖掘和分析。

HANA ML Python API–有关HANA机器学习API的更多信息,请参阅SAP HANA文档。

前提条件:HANA ML安装环境+SAP HANA DB(启动并运行)

HANA ML安装-https://developers.sap.com/tutorials/hxe-ua-install-python-ml-api.html

我们一步一步走步骤

首先,我们需要一个twitter开发者帐户这是非常简单和直接的到twitter的开发者网址,并为自己设置一个应用程序,并保存在记事本中的某个地方提到的所有令牌成功创建twitter帐户后,您将看到下面的内容,请将它们放在手边并保存在记事本中

twitter开发者令牌

转到conda/python命令提示符并安装twitter API(根据您的舒适程度或喜好,python安装的API很少)执行以下命令管道安装夹管##如果成功,请执行以下命令检查导入tweepy作为twitter初始化所有令牌,给它们我们从twitter开发者帐户中注意到的值这将用于连接twitter消费者密钥='e6QvccFkjlkdsjlksadjlkjdsa'消费者密码='aslkdjsalkdjlsakd'token='1384909104-2ALAKDLSAKDLAKDSLKDSALKDSALADKADS'令牌\u secret='rT0ZEUdasldkasdkjsadlkalkdjlkdajlkdsa' 如果连接成功,就从twitter身份验证开始测试,根据标签下载几个tweet#通过密钥和秘密令牌对Twitter进行身份验证身份验证=twitter.OAuthHandler文件(消费者密钥,消费者密钥)身份验证设置\访问\令牌(令牌,令牌\秘密)#创建API对象-等待速率限制为真,以便我们可以下载tweets#没有任何连接中断api=推特.API(验证,等待速率限制=真)#创建一个tweet-让我们看看这个api.U状态更新("嗨,从HANA ML API到Twitter-分析推文")Tweeting using python–last command will post a tweet using my account

python和twitter之间的连接现在很好–让我们试着下载几条tweet,看看它是如何在客户端发送的,然后在发送到SAP HANA DB之前需要进行清理和一些格式化

尝试获取前10条tweet基于哈希标签(COVID19)&让我们得到:hashtag='#COVID19'日期='2020-06-30'推文=twitter.光标(api.搜索,q=hashtag,lang='en',since=date,).items(10)对于tweets中的tweet:对于范围内的i(长度(tweet.entities.get获取('hashtags')):打印(tweet.entities.get获取('hashtags')[i]['text'])

这里我们也在传递日期,大数据培训哪好,所以从6月30日开始,它会给我们10个项目,让我们看看输出。It这取决于你选择什么参数,你可以自由地改变散列标签。

如果你看到下面的图片主要是人们谈论的面具/航空旅行等,我们会看到本文详细分析了这只是为了检查我们是否可以下载tweet。现在对5K项目执行相同的命令推文=twitter.光标(api.搜索,q=hashtag,lang='en',since=date).items(5000)推特数据=[[推特.geo,推特.text,tweet.user.screen\u名称,tweet.user.location,tweet.u创建于,推特实体['hashtags']]用于tweets中的tweet]这将为你下载5000条推文,当然我们可以用这些数据做一些文本分析——你也可以下载5万条推文,这需要一些时间&把这5万条推文保存在excel表的某个地方,当然你可以尝试更多的文本挖掘功能。

地理位置(GEO Location)推文用户ID位置日期标签

创建一个数据帧来存储tweet

定义一个函数来获取Hash标签

tweet只处理Hash Tag列

让我们检查tweet\u df有多少条记录?它的(5000 X 6)

用于清理文本的Regex函数

让我们现在构建一些Regex来清理文本,然后再进行任何文本挖掘,也可以在将数据插入SAP HANA之前

应用Regex函数并清理文本

输出

如果您查看文本,云 服务器,我看到大多数内容都是干净的,但仍有改进的余地,我在这里看到,如果我可以删除"嘿",但HANA仍然要删除它使用停止词

保存数据帧

将此数据帧保存在您的本地文件中,以便您以后使用–

建立与SAP HANA系统的连接

现在转到您的HANA系统–