2018年05月02日

「前処理大全」(本橋 智光, 2018)を読みました。

「前処理大全[データ分析のためのSQL/R/Python実践テクニック] 」(本橋 智光, 2018)(→amazon.co.jpのリンク)を読みました。内容紹介で、「本書はデータサイエンスに取り組む上で欠かせない「前処理スキル」の効率的な処理方法を網羅的に習得できる構成となっています。」とのことですが、まさにその通り。私がいつもやっていることの大半がちゃんと書いてあって、それが整理されていました。少なくともここに書いてあることはデータ分析をする前に必須のスキルですし、データサイエンスの業界に入門する方はおさえておくのがよいと思います。データサイエンスにおいて、前処理の作業に大半を費やすのはそのとおりで、この前処理部分をどれだけ時間短縮できるかが、データ分析の仕事のクオリティを上げたり、沢山こなしたりする上で重要です。

一方で、前処理は前処理。分析自体はこの作業の次にありますし、そもそも前処理の前に、「仮説」が必要です。前処理を効率的にすることで、データサイエンティスト本来の業務である、仮説設定と検証分析に注力することになります。

本書自体はかなりボリュームがありますが、実施したい内容を、R, Python, SQLの三通りでコードサンプルを掲載してあるので、実際のボリュームはさほど大きくありません。Rだけ、Pythonだけ、SQLだけという読み方もできますし、これまでRしか書いたことなかったという人が、最近はPythonの必要性に駆られてとか、サーバーサイドでSQLだけで処理したい、と言うときに重宝すると思います。




posted by jinya at 16:57| Comment(0) | 日記 | このブログの読者になる | 更新情報をチェックする
この記事へのコメント
コメントを書く
お名前:

メールアドレス:

ホームページアドレス:

コメント:

認証コード: [必須入力]


※画像の中の文字を半角で入力してください。
×

この広告は180日以上新しい記事の投稿がないブログに表示されております。