St_Hakky’s blog

Data Science / Human Resources / Web Applicationについて書きます

Kaggleを始める際に知っておくべきTipsをまとめてみた

こんにちは*1

Kaggle、熱いですね!

知見の塊すぎるKaggleをやっていくにあたって、準備するがてらまとめておこうかと。

Kaggleを始めるにあたって知っておくべきことリスト

以下の内容についてつらつらと書いていこうと思います。

  • Kaggleとは
  • Kaggleのアカウントの作成
  • コンペティションを選んで参加する
  • Kaggle CLI
  • Kaggle上位者達の知見を得る

上のような感じで書きます。

[2017/10/05追記] 以下のサイトにKaggleのリンク集がありました。

futurismo.biz

Kaggleとは

データ分析のコンペティションです(いろんなサイトがめっちゃ説明しているので割愛笑)。最近、KaggleがGoogleに買収されたとかで話題になっていましたね。

Kaggleのアカウント作成

作らなきゃ始まらない。以下からアカウントを作ります。

https://www.kaggle.com/account/loginwww.kaggle.com

コンペティションを選んで参加する。

やらなきゃ始まらない。いろんなコンペティションがあるので適当に面白そうなのを見て参加します。

私はやっていませんが、一番最初はタイタニックとかが良いようですね。このあたりはいろんなサイトが紹介しているのでそれを見たほうが早いかと。

あとは、目的にもよるんですが、最初はトップの人たちがどんなふうにやっているのかを知るのが良いと思うので、後述するインタビュー記事とかで詳しめのやつとかからやるのがいいのかもしれないっす*2

参加すればわかることが本当に多いので、「どれにしよっかなー」とかで悩んでいるのではなくて、とりあえずなんでもいいので初めて見るのがいいと思います。

Kaggle CLI

Kaggleのサブミッションとかまぁ割りと面倒なんで、ふつうにCLIから操作するためのものが用意されています。最強たちは、AWSとか使ってやるみたいですが(学生身分だとそれ相応のスペック容易しようとすると金たりねぇからそんなこと個人でしないけど笑)、そんな時に使うと便利みたいですね。

インストール方法は、以下の通りpipで入ります。

$ pip install kaggle-cli

$ kg config -g -u `username` -p `password` -c `competition`

このコマンドを打ったあとに、ブラウザから、、、、大事なので2回言います。ブラウザから、Kaggleのサイトにログイン後、コンペティションサイトに行って、コンペティションの規約に同意する的なことをしないといけません(いや、それもコマンドからさせろよという)。

その他のお役立ちコマンドはこちらから見れます。データセットのダウンロードから、提出までできるようですね。便利。

Kaggle上位者達の知見を得る

まずは、Kaggleのオフィシャルブログ。見ているだけで勉強になます。

blog.kaggle.com

上のサイトの中に、kaggleのコンペティションで勝った人のインタビューが載っています。

また、以下のyoutube動画では、実際にKaggleをやっている様子を解説しているので、これも凄い参考になります。

www.youtube.com

この動画を解説されている方が開いた日本のKagglerが集まったslackがあります。

以下の私のツイートにあるように、知見の塊すぎてやばいので、Kaggleやりたい方はぜひ参加されることをおすすめします*3


*1:2018/03/05更新したのでなんか公開日と時系列おかしい部分あるけど気にしない

*2:ってか自分はそうしている

*3:別に斡旋業者とかではないけど本当におすすめなので笑