St_Hakky’s blog

Data Science / Human Resources / Web Applicationについて書きます

【Kaggle】 Kaggle APIを使ってみる

こんにちは。

今日は、Kaggle APIを使って、データのダウンロードとかしてみたので、その作業内容をまとめる。

Kaggle APIとは

Pythonで実装されたコマンドラインツールを使用してアクセス可能なKaggleの公式APIのことです。Pythonのライブラリの一つなので、pipでインストールすることができます。

これを使うことで、データのダウンロードなどを行うことができます。

インストールと設定

pipでインストールすることができます。

$ pip install kaggle

この状態で、

$ kaggle

とうつと、おそらく次のようなエラーメッセージが表示されると思います。

Unauthorized: you must download an API key from https://www.kaggle.com/<username>/account
Then put kaggle.json in the folder /Users/st_hakky/.kaggle

指示通りに、Kaggleの個人アカウントのページに行って、以下のような部分があるので、そこで「Create New API Token」という部分をクリックします。

f:id:St_Hakky:20180519132638p:plain

自動的に自分のローカルにファイルがダウンロードされるので、あとは権限を変更します。

$ chmod 600 ~/.kaggle/kaggle.json

これで初期設定は完了です。

データをダウンロードしてみる

試しに、現在開催されているコンペのデータをダウンロードしてみます。

ダウンロードする時の手順としては、まずコンペに参加します。そのあと、コマンドを打ってダウンロードするというような感じです。

今回は、現在開催されている以下のコンペのデータをダウンロードしてみることにしました。

金融系のコンペみたいです。

まずは参加しないと行けないので、してください。しないままダウンロードしようとすると、「Forbidden」みたいな感じのエラーが出ます。

参加したあと、コンペティションの「Data」タブに行くと、データをダウンロードするためのコマンドが書いてあるので、それを打ちます。

$ kaggle competitions download -c home-credit-default-risk


そうするとデータのダウンロードが始まって、 「~/.kaggle/competitions//」のところにデータが入るようになります。

こんな感じで使えるのは便利ですよね。そのほかの便利なコマンド、例えば予測結果の提出などもあるので、またみてみようと思います。

今日はそんな感じで。