Octoparse Japan

Webスクレイピング、クローラー、スクレイピングツール、データ抽出、データ分析、データ活用、ビッグデータなどに関する記事です。

欧米で新型コロナウイルスの感染拡大の中、ウイルス関連の陰謀論も盛り上がっています。SNSでも根拠が不明なまま人々の不安をあおる発言がじわじわ広がっているため、FacebookやTwitterは、投稿の精査 ・確認に積極的に取り組んできました。

信頼できる情報源が増えるにつれ、実際の人々の声を聞いて、コロナウイルスに関する真の感情を発見する方が面白いと思いました。

 

Twitterをスクレイピングする

「スクレイピング」という単語に怯えないでください。Webページを閲覧できれば、初心者でもプロ並みのWebスクレイピングができます。

人々の声を聞く最も簡単な方法は、新型コロナのキーワードを含むツイートをすべて収集することです。アメリカと英語という検索条件を設定することで、研究の範囲をさらに狭めています。これにより、サンプルデータが検索トピックと一貫性を保ち、予測の精度が向上します。

研究範囲が決まったら、スクレイピングを開始できます。Pythonなどのプログラミング言語に詳しくないので、いつものWebスクレイピングツール「Octoparse」を使います。自動認識機能を備えているため、データの手動選択する時間を大幅に節約できます。

Twitterは動的なサイトで、ページを下にスクロールし続けると、ツイートが表示されます。つまり、できるだけ多くのツイートを取得するために、ループリストを作成して、情報を取得しながらスクロール動作を維持します。これにより、スクレイピングワークフローが中断することなく一貫性を保ちます。

そのようなサイトからデータを抽出するのは難しいので、Octoparseが提供しているTwitterスクレイピングテンプレートを利用します。Octoparseには数十種類のあらかじめ作成されたテンプレートがあり、瞬時にデータを取得できて、スクレイピングタスクを設定する必要はありません。今回はTwitterの「Advanced Search」というテンプレートを利用します。

スクレイピングテンプレート

それから、検索条件を絞り込んだURLとスクロールダウン回数を入力し、「保存して実行」をクリックすると、データが抽出されます。以下は取得したデータです:

 サンプルデータ

 

 

NLP感情分析を行う

NLPは自然言語処理の略称で、テキストの感情分析に広く使用されています。アイデアは、単語を計算する分類子モデルを構築し、単語の意味を理解することです。たとえば、ツイートを入力すると、内容が積極的か消極的かがわかるはずです。明らかに、よりきめの細かい感情分類はより困難な作業です。

すでに十分に訓練されたモデルを持っているので、この場合は、FastTextを使用してツイートを予測します。得た結果はこのようなものです:

感情分析の結果

ご覧のように、ツイートは「積極的」と「消極的」2つのグループに分類されていて、確率スコアもあります。得点が高いほど、予測は正確になります。約0.5のスコアについては、積極的でも消極的でもない中立的な感情を示しています。

スコアが0.7未満のツイートを除外してグラフを作成しました。

 Tableauで可視化

グラフが示すように、ツイートの42.2%は新型コロナウイルスに対して積極的ですが、ツイートの57.8%は消極的です。最も多くのコメントを得たツイートは、より積極的になる傾向があります。一方、最もいいねされたツイートはより消極的であるように見えました。この結果は、一般市民の態度が単一性ではなく二分法のレベルを示しているため、皮肉な状況を示しています。これが、なぜ経済の再開に抗議する側がいるのか、反対に医療タスクフォースの撤廃を懸念している人々がいる理由を説明しています。私たちはパラドキシーまたは不確実性の状況にあります。 

 

 

まとめ

ニュースメディアは常に大衆に知らせるために最も大きな声を持っています。しかし、これらの主流メディアは、私たちの意思決定に大きな影響を与える政治的視点を持っています。特に、陰謀論がかき立てられて、事態を混乱させる場合、これは危機の際の典型的な現象です。

頭脳を明晰に保つにはどうすればよいですか?ストーリーの片側だけを読むのではなく、より多くの声に耳を傾けてください。ニュースを読むときは、正しい判断力を高め、様々な情報の中から、必要な情報のみを取り入れるのは必要です。


元記事:
https://www.octoparse.jp/blog/twitter-sentiment-analysis-on-novel-coronavirus/

コメント

コメントフォーム
記事の評価
  • リセット
  • リセット