St_Hakky’s blog

Data Science / Human Resources / Web Applicationについて書きます

Data Science

Gradient Boostingについて調べたのでまとめる

こんにちは。Gradient Boostingについて調べたのでまとめました。その他の手法やBoostingってそもそも何的な説明は以下の記事でしています。st-hakky.hatenablog.com ◯Gradient Boostingとは Gradient Boostingの誕生の経緯とかはこちらに書かれているので、…

AdaBoostについて調べたのでまとめる

こんにちは。今日はAdaBoostについて書きます。Boostingってそもそも何っていうのとか他のBoostingの手法については以下の記事をどうぞ。st-hakky.hatenablog.com AdaBoostとは AdaBoostは"Adaptive Boosting"の略でBoostingのアルゴリズムとしては最初に出…

Boosting(ブースティング)について調べたのでまとめる:AdaBoost / Gradient Boosting / XGBoostなど

こんにちは。最近、アンサンブル学習について勉強しているんですが、この記事ではBoostingについて調べたことを書きます。以下がその他のアンサンブル学習とか全般的な話とかについて書いた記事なので、バギングとか知りたい人は以下の記事をどうぞ。st-hakk…

Bagging(バギング)について調べたのでまとめた:Out-of-Bag(OOB) / Random Forest / Decision Jungles / Deep Forest(gcForest)

こんにちは。Kaggleをやるにあたって(というかふつうに勉強したかったのもある)、アンサンブル学習の方法は勉強しておく必要があるようなーと思って、勉強してみました。他のブースティングやスタッキング、アンサンブル学習全般については以下の記事をどう…

いちいち覚えていられないしもうよく使うMySQLのコマンドとかやることとかをまとめておく

こんにちは。最近SQLのコマンドとかよくつかうんですけど、たまーーーーーーにつかうものとか、びみょーーーーーに覚えにくいやつとか、いちいち調べていてまじで時間もったいないのでまとめておきます。まぁ覚えろよってことなんですけど、なんかこの手のコ…

Julia入門 - 概要と開発環境構築

こんばんは。最近、そろそろ違うプログラミング言語を勉強したいなぁと思っていて、この夏はC++とJuliaを触りたいなーと。Web開発はするので、Javascriptとかもガンガン触ることになりそう。2ヶ月でどこまで触れるかって感じですね。さて、データサイエンス…

アンサンブル学習について勉強したのでまとめました:Bagging / Boosting / Stacking

こんにちは。今、KaggleのRestaurant Revenue Predictionをやっていて、その中でアンサンブル学習について再度学習してみたので、まとめました。結構ながくなっちゃったかもですが、頑張って参考文献に飛ばしたりとかしてまとめました(笑) アンサンブル学習…

Windowsで形態素解析ツールMecab入れるのが面倒だったので、Janome使ってみた

こんにちは。私の愛するMacがぶち壊れて、ここ最近Windowsで開発をしているのですが、MeCab入れるときの手順がもうクソめんどくさくて、「あぁ、、、またやるのかこれ、、、」ってなってたところに、Janomeと出会いました。笑調べている過程で知ったんですが…

Pythonで使う可視化ライブラリまとめ

こんにちは。PyCon2017のビデオを全部ではないですが、気になったタイトルのものだけ見ているんですけど、その中で面白いものをみつけたので紹介します。 PyCon2017:Python's Visualization Landscape Pythonにはめちゃめちゃ沢山の可視化ライブラリがあり…

Kaggleを始める際に知っておくべきTipsをまとめてみた

こんにちは*1。Kaggle、熱いですね!Kaggleのコンペなんか参加しようと思ってKaggleサイトをぱらぱら眺めてるんだけど、これカーネルとか眺めてるだけで、下手なところよりも普通に勉強できちゃうな笑— Hakky@Julia勉強中(´・∀・) (@St_Hakky) 2017年11月14日…

時系列解析:自己相関係数, 定常性, White Noise, AR, MA, ARMA, ARIMA, ARIMAX, SARIMAについて【調べたら随時追加】

こんにちは。最近時系列解析をすることになり、AR, MA, ARMA, ARIMA, ARIMAX, SARIMAあたりについて勉強したので、それについてまとめておこうかと思います。ぶっちゃけいろんなところにもうすでに解説は出ているので、これは調べている過程で参考になったリ…

Effective python シリーズ7:Use List Comprehensions Instead of map and filter

こんにちは。 ○読んでいる本 以下の本を勉強がてら読んでいます。www.effectivepython.comここにある通り、Pythonプログラムを改良する59項目が掲載されています。詳細は本に書かれているので、それを読めば良しとして、大事そうなところと、これに関連して…

Effective python シリーズ6:Avoid Using start, end, and stride in a Single Slice

こんにちは。 ○読んでいる本 以下の本を勉強がてら読んでいます。www.effectivepython.comここにある通り、Pythonプログラムを改良する59項目が掲載されています。詳細は本に書かれているので、それを読めば良しとして、大事そうなところと、これに関連して…

Effective python シリーズ5:Know How to Slice Sequences

こんにちは。少し日が空いてしまいましたが、今日も頑張る。 ○読んでいる本 以下の本を勉強がてら読んでいます。www.effectivepython.comここにある通り、Pythonプログラムを改良する59項目が掲載されています。詳細は本に書かれているので、それを読めば良…

「採用学」を読んだ

こんにちは。「採用学」という本を読んだので、その本についてまとめておく。 ○読んだ本:「採用学」 今回読んだのはこの本。 ○本の内容と感想 この本は、採用を科学するという立場をとって研究をされている服部先生の本で、中身もできる限り事実を元に説明…

勾配降下法について調べてまとめてみた

こんにちは。今までなんとなくなーなーで勉強していたGradient Descentですが、ちゃんと調べて見ました。OverViewの論文があって(元はブログの投稿なので、これはそうというのかわからないけど)、今回それを読みつついろんな資料を漁る方式で勉強しました。 …

Effective python シリーズ4:Write Helper Functions Instead of Complex Expressions

こんにちは。 ○読んでいる本 以下の本を勉強がてら読んでいます。www.effectivepython.comここにある通り、Pythonプログラムを改良する59項目が掲載されています。詳細は本に書かれているので、それを読めば良しとして、大事そうなところと、これに関連して…

Effective python シリーズ3:Know the Differences Between "bytes", "str", and "unicode"

こんにちは。ちょっと期間が空いてしまいましたが、今日も頑張る。 ○読んでいる本 以下の本を勉強がてら読んでいます。www.effectivepython.comここにある通り、Pythonプログラムを改良する59項目が掲載されています。詳細は本に書かれているので、それを読…

Effective python シリーズ2:Follow the PEP 8 Style Guide

こんにちは。 ○読んでいる本 以下の本を勉強がてら読んでいます。www.effectivepython.comここにある通り、Pythonプログラムを改良する59項目が掲載されています。詳細は本に書かれているので、それを読めば良しとして、大事そうなところと、これに関連して…

Effective python シリーズ1:Know Which Version of Python You’re Using

こんにちは。 ○読んでいる本 以下の本を勉強がてら読んでいます。www.effectivepython.comここにある通り、Pythonプログラムを改良する59項目が掲載されています。詳細は本に書かれているので、それを読めば良しとして、大事そうなところと、これに関連して…

Effective pythonを勉強します【これはまとめページ】

こんばんは。Pythonを猛烈に使うので、一回Pythonしっかり勉強しようと思いまして、Effective pythonっていう本が研究室にあって何気なくパラパラめくったら「おぉ…いい本だ…!!!」ってなったので、読むがてら自分で調べたこともまとめておこうかなーと。w…

データ分析をするときのフォルダ構成をどうするのか問題について

こんにちは。今回は、データ分析をするときのフォルダ構成をどうするのか問題について、ちょっと調べてみたので、自分のこれまでやってきたことを振り返りつつ、まとめます。 調べた動機 某データサイエンス系のインターンシップでの反省点でもあり、これは…

KPIについてぼんやりしかわかってなかったので、本を2つ読んで見た

こんばんは。2月に行ったとある某企業のインターンシップであったり、今運営しているメディアであったりで、KGI/KPIを使って目標や成果の管理をしているのですが、webにある断片的な情報だけで運営していました。メディアのようにPVとか離脱率とか、そういう…

Rで協調フィルタリングをやってみた

こんにちは。実際のレコメンドシステムでは、こういったパッケージを利用するのではなく、独自アルゴリズムなどを開発して自社パッケージとして持っておくのが普通かなぁと思う。んだけど、PoC(Proof of Concept)の段階、つまりレコメンドを実業務に導入する…

Rでアソシエーション分析:アプリオリアルゴリズム編

こんにちは。 ○arulesを使ってアソシエーション分析 ■arules関係のパッケージ 以下のサイトにまとまっている。lyle.smu.edu ■参考サイト ・CRAN - Package arules ・Reference manual : arules.pdf ■インストールと読み込み # “arules”のインストール instal…

MacへのRstanのインストール

以下の本を読んでいます。この本では、OSがwindows対象なので、Macとの差分を書いて行こうかと。あと、余力があればPythonでstanを用いた場合のコードとかも書いていく。インストール方法は、すぐに廃れてしまいますが、以下のような感じで行うというのをメ…

コンピューターで「脳」がつくれるか を読んだ

こんにちは。最近研究室にあった本で気になっていた本を読んでみたので、その感想でも書きます。 ○読んだ本 「コンピューターで「脳」がつくれるか」という、以下の本を読みました。 ○本の対象読者とざっくりとした内容 この本は、ある程度予想はしていたの…

「劣モジュラ最適化と機械学習」を読んだ&輪講会をしたのでまとめておく

こんばんは。最近、機械学習プロフェッショナルシリーズの「劣モジュラ最適化と機械学習」を読んで、輪講会を勉強会でしたので、スライドとか参考情報をまとめておきたいと思います。 そもそも興味を持ったきっかけ 劣モジュラ最適化と機械学習について興味…

「続・わかりやすいパターン認識」を読んで輪講会をしたのでまとめておく

こんにちは。俗にいう続パタを読んで輪講会をしましたので、そこで使った資料などをまとめておきます。 ○読んだ本 読んだのは、以下の本。機械学習をやっている人は必ず読む、特に教師なし学習の入門書としては有名な一冊ではないかと。 ○参考になった資料ま…

エポック(epoch)数とは【機械学習 / Deep Learning】

こんにちは。今日はエポック数について調べましたので、そのことについて書きます。 エポック数とは エポック数とは、「一つの訓練データを何回繰り返して学習させるか」の数のことです。Deep Learningのようにパラメータの数が多いものになると、訓練データ…