大家好,
希望你也做得很好,也很安全
因为我看到了很多关于COVID-19数据分析和预测的帖子,有着相同的想法,我决定把我最近的工作主要放在COVID-19 tweets和数据的文本挖掘和文本分析上。
想法是从python连接twitter,将数据插入SAP HANA,并利用内置的SAP HANA在文本挖掘、文本分析、显示word cloud以及使用少量文本挖掘功能方面的强大功能。
我们看到人们在twitter上以不同的情绪表达他们的观点和想法,你知道我们有很多非结构化数据,要挖掘这一点确实是一项非常困难的工作,因此我选择了这个我想展示一些关于它的见解,希望你会喜欢,请随时分享你的建议和反馈。
twitter和HANA通信的技术流程–我们现在有了python,它将使我们的工作变得简单,并提供与SAP HANA+的平滑集成,使用了这么多内置的python函数用于挖掘和分析。
HANA ML Python API–有关HANA机器学习API的更多信息,请参阅SAP HANA文档。
前提条件:HANA ML安装环境+SAP HANA DB(启动并运行)
HANA ML安装-https://developers.sap.com/tutorials/hxe-ua-install-python-ml-api.html
我们一步一步走步骤
首先,我们需要一个twitter开发者帐户这是非常简单和直接的到twitter的开发者网址,并为自己设置一个应用程序,并保存在记事本中的某个地方提到的所有令牌成功创建twitter帐户后,您将看到下面的内容,请将它们放在手边并保存在记事本中
twitter开发者令牌
转到conda/python命令提示符并安装twitter API(根据您的舒适程度或喜好,python安装的API很少)执行以下命令管道安装夹管##如果成功,请执行以下命令检查导入tweepy作为twitter初始化所有令牌,给它们我们从twitter开发者帐户中注意到的值这将用于连接twitter消费者密钥='e6QvccFkjlkdsjlksadjlkjdsa'消费者密码='aslkdjsalkdjlsakd'token='1384909104-2ALAKDLSAKDLAKDSLKDSALKDSALADKADS'令牌\u secret='rT0ZEUdasldkasdkjsadlkalkdjlkdajlkdsa' 如果连接成功,就从twitter身份验证开始测试,根据标签下载几个tweet#通过密钥和秘密令牌对Twitter进行身份验证身份验证=twitter.OAuthHandler文件(消费者密钥,消费者密钥)身份验证设置\访问\令牌(令牌,令牌\秘密)#创建API对象-等待速率限制为真,以便我们可以下载tweets#没有任何连接中断api=推特.API(验证,等待速率限制=真)#创建一个tweet-让我们看看这个api.U状态更新("嗨,从HANA ML API到Twitter-分析推文")Tweeting using python–last command will post a tweet using my account
python和twitter之间的连接现在很好–让我们试着下载几条tweet,看看它是如何在客户端发送的,然后在发送到SAP HANA DB之前需要进行清理和一些格式化
尝试获取前10条tweet基于哈希标签(COVID19)&让我们得到:hashtag='#COVID19'日期='2020-06-30'推文=twitter.光标(api.搜索,q=hashtag,lang='en',since=date,).items(10)对于tweets中的tweet:对于范围内的i(长度(tweet.entities.get获取('hashtags')):打印(tweet.entities.get获取('hashtags')[i]['text'])
这里我们也在传递日期,大数据培训哪好,所以从6月30日开始,它会给我们10个项目,让我们看看输出。It这取决于你选择什么参数,你可以自由地改变散列标签。
如果你看到下面的图片主要是人们谈论的面具/航空旅行等,我们会看到本文详细分析了这只是为了检查我们是否可以下载tweet。现在对5K项目执行相同的命令推文=twitter.光标(api.搜索,q=hashtag,lang='en',since=date).items(5000)推特数据=[[推特.geo,推特.text,tweet.user.screen\u名称,tweet.user.location,tweet.u创建于,推特实体['hashtags']]用于tweets中的tweet]这将为你下载5000条推文,当然我们可以用这些数据做一些文本分析——你也可以下载5万条推文,这需要一些时间&把这5万条推文保存在excel表的某个地方,当然你可以尝试更多的文本挖掘功能。
列
地理位置(GEO Location)推文用户ID位置日期标签
创建一个数据帧来存储tweet
定义一个函数来获取Hash标签
tweet只处理Hash Tag列
让我们检查tweet\u df有多少条记录?它的(5000 X 6)
用于清理文本的Regex函数
让我们现在构建一些Regex来清理文本,然后再进行任何文本挖掘,也可以在将数据插入SAP HANA之前
应用Regex函数并清理文本
输出
如果您查看文本,云 服务器,我看到大多数内容都是干净的,但仍有改进的余地,我在这里看到,如果我可以删除"嘿",但HANA仍然要删除它使用停止词
保存数据帧
将此数据帧保存在您的本地文件中,以便您以后使用–
建立与SAP HANA系统的连接
现在转到您的HANA系统–