2本続けて買った本の紹介になってしまいました。
Pythonは機械学習やDeepLearningのために使っていましたが、あまり基本を知らずに使っていて、サクサク使えるとは程遠い状態でした。
Pythonデータサイエンスハンドブック ―Jupyter、NumPy、pandas、Matplotlib、scikit-learnを使ったデータ分析、機械学習
- 作者:Jake VanderPlas
- 発売日: 2018/05/26
- メディア: 単行本(ソフトカバー)
この本、実は無料で読めます。
Python Data Science Handbook | Python Data Science Handbook
英語です。高いなぁと思って、初めはサイトでGoogle翻訳を頼りにやっていましたが、これが結構分かりやすい。機械学習の章に入ったところで日本語版を購入しました。
この手の本は読むというより、自分に必要な部分に追記をしていって使える道具にしていくのが私の使い方です。なので、電子版より本として手元にあることが重要です。
まだサクサク使えるとは言えませんが、いろいろな用途に使うことができるのでそのうち慣れていくことを期待しています^^;
データ分析は自分が気になった情報を自分で集めるのに便利ですね。
例えば、今はコロナウイルスが大変なことになっていますが、流れてくる報道を見てもどういう状況にあるのかが非常にわかりにくい。
なので、公開データを自分で集計してみることにしました。状況だけ知りたいので、新規感染者数を地域別に、週単位でまとめてみたのが以下のグラフです*1。
関東に関しては、2月の三連休の前から拡大の兆候が見えてますね。日別の報道をなんとなく見ているだけだと気づかなかったのではないでしょうか。なので、連休前の会見にとても違和感を覚えました。
北海道は全国に先駆けて法的根拠のない緊急事態宣言を出しました。しかし、グラフを見ると、その効果はなかなかだったのではないかと思います。
もちろん、専門的にみるとデータそのもののバイアスなど、気をつけなければならないことが多いとは思いますが、自分の手で探れる能力があるのとないのとではニュースの見方も変わってくるのかなと思います。
こういうのがちょっと勉強しただけで作れるのがPythonのいいところですね。
*1:最終週に関してはデータが7日分そろっていないので低めに出ています。