こんにちは。
今日は、Kaggle APIを使って、データのダウンロードとかしてみたので、その作業内容をまとめる。
Kaggle APIとは
Pythonで実装されたコマンドラインツールを使用してアクセス可能なKaggleの公式APIのことです。Pythonのライブラリの一つなので、pipでインストールすることができます。
これを使うことで、データのダウンロードなどを行うことができます。
インストールと設定
pipでインストールすることができます。
$ pip install kaggle
この状態で、
$ kaggle
とうつと、おそらく次のようなエラーメッセージが表示されると思います。
Unauthorized: you must download an API key from https://www.kaggle.com/<username>/account Then put kaggle.json in the folder /Users/st_hakky/.kaggle
指示通りに、Kaggleの個人アカウントのページに行って、以下のような部分があるので、そこで「Create New API Token」という部分をクリックします。
自動的に自分のローカルにファイルがダウンロードされるので、あとは権限を変更します。
$ chmod 600 ~/.kaggle/kaggle.json
これで初期設定は完了です。
データをダウンロードしてみる
試しに、現在開催されているコンペのデータをダウンロードしてみます。
ダウンロードする時の手順としては、まずコンペに参加します。そのあと、コマンドを打ってダウンロードするというような感じです。
今回は、現在開催されている以下のコンペのデータをダウンロードしてみることにしました。
金融系のコンペみたいです。
まずは参加しないと行けないので、してください。しないままダウンロードしようとすると、「Forbidden」みたいな感じのエラーが出ます。
参加したあと、コンペティションの「Data」タブに行くと、データをダウンロードするためのコマンドが書いてあるので、それを打ちます。
$ kaggle competitions download -c home-credit-default-risk
そうするとデータのダウンロードが始まって、 「~/.kaggle/competitions/
」のところにデータが入るようになります。
こんな感じで使えるのは便利ですよね。そのほかの便利なコマンド、例えば予測結果の提出などもあるので、またみてみようと思います。
今日はそんな感じで。