Wordcloudデビュー！Pythonを使って初めてのアウトプット

大阪・京都を中心に関西の大学生が集まる有給／長期インターン - 未来電子テクノロジー > インターンブログ > インターンプログラミング > Wordcloudデビュー！Pythonを使って初めてのアウトプット

2019.6.17

インターンブログ,インターンプログラミング,学びブログ,神戸大学

Wordcloudデビュー！Pythonを使って初めてのアウトプット

神戸大学インターン

廣瀬大斗

はじめまして。

プログラミング開発者コースに所属しています、神戸大学国際文化学部所属の廣瀬大斗です！

僕は4月中旬から未来電子テクノロジーのプログラミングコースでインターンをしていて、現在HTMLやCSS、Pythonを勉強させてもらっています。

５月に、私は生まれて初めて自分でプログラムを書きました。

言い換えると、初めてプログラミングのアウトプットを実行しました。

使用言語はPythonで、Twitterのテキストマイニングを行いました。

その成果がどんなものだったのかを紹介していきたいと思います。

テキストマイニング
WordCloud
動機
手順
結果
課題
最後に

テキストマイニング

テキストマイニングは、「定型化されていない文字情報の集まりを自然言語解析などの手法を用いて解析し、何らかの有用な知見を見つけ出すこと。データマイニングをテキストデータに適用したもの。」（IT用語辞典e-Wordsより）と定義されています。

つまり、SNSやWikipediaなどの文字が多くあるサイトやアカウントにあるテキストを分析して、「このアカウントはどのような単語を多く使用しているか」「どんなサイトにどんな単語が多く使用されているか」などの何かしらの結果を得ることです。

今回は、テキストマイニングをするために、WordCloudという分析ツールを利用しました。

WordCloud

なぜ今回テキストマイニングをする際にWordCloudを使用したかというと、この分析ツールは分析結果を可視化することができるからです。

WordCloudでは、分析したテキストに頻出する文字は大きく表示されるので、どのような単語を多く使用しているかひと目で判断することができます。

また、大きさの違う多くの単語が表示されるので見にくくなってしまいそうですが、文字によって色を変えて表示させるので見やすさもあります。

動機

Progateというプログラミング学習サイトを利用してPythonの勉強をしている時、ふと昔wordcloudで自分のツイートを分析している人を見かけて面白いなと感じたことを思い出しました。

そこで、Pythonを勉強している今なら、色々調べながらやっていけばプログラムを書けるのではないかと思い、実行してみることにしました。

ただ調べるだけでは面白くないので、主アカウントと趣味アカウントの両方で試し、その違いを比較してみようと考えました。

手順

１．data_mining.py、word_cloud.py、tweet_data.txtの３つのファイルを作成します。

２．次にTwitterをデータマイニングで使用するためにTwitterAPIを取得します。

３．data_mining.pyに自分のツイッターのアカウント名を入力して、自分のツイートの情報を取得させるようにプログラムし、テキストファイルtweet_data.txtに書き込ませます。

４．word_cloud.pyでテキストファイルtweet_data.txtから名詞だけを抽出するようにプログラムします。

５．そして抽出したデータをwordcloudを用いて図を表示させます。

結果

自分の主アカウントの方では、「バイト」「ゼミ」「国文（国際文化学部の略称）」といった日常生活の大部分を占めているものが大きく表示されました。

一方で趣味アカウントの方では、ゲームの名前やスポーツ選手などが多く表示され、予想通り自分の趣味に関することが出てきました。

課題

「これ」「そう」「こと」など、どのような文章にでも入っていそうな単語も抽出してしまい少し正確さに欠けたので、次はこれらの単語は表示させないようにプログラムしたいと考えています。

最後に

まだまだPythonの知識が乏しいのでかなり色々調べながらでないとできませんでしたが、初めて上手く実行できた時の達成感はすごかったです。

これからも精進していきたいと思います。

みなさんもこの達成感を味わってみませんか。

この記事を書いた人

神戸大学インターン

廣瀬大斗

この人の記事一覧

大学に入ったら未来電子インターン

MIRAIDENSHI

INTERNSHIP

地域別インターン生
北海道のインターン生
青森県のインターン生
岩手県のインターン生
宮城県のインターン生
秋田県のインターン生
山形県のインターン生
福島県のインターン生
茨城県のインターン生
栃木県のインターン生
群馬県のインターン生
埼玉県のインターン生
千葉県のインターン生
東京都のインターン生
神奈川県のインターン生
新潟県のインターン生
富山県のインターン生
石川県のインターン生
福井県のインターン生
山梨県のインターン生
長野県のインターン生
岐阜県のインターン生
静岡県のインターン生
愛知県のインターン生
三重県のインターン生
滋賀県のインターン生
京都府のインターン生
大阪府のインターン生
兵庫県のインターン生
奈良県のインターン生
和歌山県のインターン生
鳥取県のインターン生
島根県のインターン生
岡山県のインターン生
広島県のインターン生
山口県のインターン生
徳島県のインターン生
香川県のインターン生
愛媛県のインターン生
高知県のインターン生
福岡県のインターン生
佐賀県のインターン生
長崎県のインターン生
熊本県のインターン生
大分県のインターン生
宮城県のインターン生
鹿児島県のインターン生
沖縄県のインターン生

Wordcloudデビュー！Pythonを使って初めてのアウトプット

テキストマイニング

WordCloud

動機

手順

結果

課題

最後に

インターン内容

マーケティングインターン

広報インターン

人事インターン

MIRAIDENSHI

INTERNSHIP