St_Hakky’s blog

プログラミング/心理学/人事/留学/データサイエンス/機械学習/Deep Learning/バイオインフォマティクス/日頃思ったこと/人事のデータサイエンスしてみたい

機械学習

【Python】数量データの正規化 ( 標準化 ) について

こんにちは。今回はデータの正規化についてです。いろんな文脈で様々な意味で使われている「正規化」っていう言葉ですが、今回は統計や機械学習で扱う数量のデータに対して行うことに絞り、まとめていきたいと思います。 Introduction ◯データの正規化とは …

フォンミーゼス・フィッシャー分布 ( von Mises-Fisher distribution)とは何なのかをPythonを使って確かめる(最尤推定もしてみた)

こんにちは。今日は「フォンミーゼス・フィッシャー分布 ( von Mises-Fisher distribution)」について調べたのでそのことについてまとめます。PRMLの2章にも出てくる分布です(2章はこの前勉強会で話したんですがしんどかったです)。 ◯フォンミーゼス・フィッ…

「異常検知と変化検知~機械学習プロフェッショナルシリーズ~」を読んで勉強会も開いて関連の情報とかも調べたのでまとめておく

こんにちは。※このエントリは、途中ですが資料の共有とかのため、突貫で体裁だけ整えて掲載しています。異常検知と変化検知の分野は、初心者なので、「こんな手法あるよ」とか「こんな論文面白いよ」とかあれば教えてほしいです。 読んだ本 最近某勉強会でい…

kerasでmultiple (複数の) 入力 / 出力 / 損失関数を扱う時のTipsをまとめる

こんにちは。 〇この記事のモチベーション Deep Learningで自分でモデルとかを作ろうとすると、複数の入力や出力、そして損失関数を取扱たくなる時期が必ず来ると思います。最近では、GoogleNetとかは中間層の途中で出力を出していたりするので、そういうの…

【Progressive Growing of GANs for Improved Quality, Stability, and Variation】を読んだのでまとめる

こんにちは。GANの発音を、「ガン」 or 「ギャン」のどっちかと言われたら、「ガン」な私です(いやまぁ気持ちだけ…)。さて、先日某つぶやきサイトに流れてくるつぶやきを眺めていたら、衝撃的な動画を見つけました。それが以下の動画です。www.youtube.com …

[Deep Learning] Batch sizeをどうやって決めるかについてまとめる

こんにちは。Deep Learningを自分でゼロから組んで(fine tuningとかではなく)、全部ゼロから学習させるのって大変ですよね。特に、ハイパーパラメーターの設定にすごく悩みます。トップカンファレンスに出されているような高精度の論文では、そういうハイパ…

「Xception: Deep Learning with Depthwise Separable Convolutions」を読んで勉強したので参考になった資料とかまとめておく

こんにちは。今Deep Learningの論文紹介をやっているのですが、僕が紹介しようかなと思った論文がKerasの作者でもある@fcholletさんのCVPRの論文でした。It's official: my paper "Xception: Deep Learning with Depthwise Separable Convolutions" was acce…

keras(tensorflow/theano/cntk)でGPUをnvidia-dockerから使ってみた (+αでLasagneも入れた&Dockerfileも作った)

こんにちは。今回は、主にDeep LearningをGPUで実行できる環境をDockerで作ってみました。主に入れたものは以下のものです。 keras=2.0.8 tensorflow_gpu=1.3.0 theano=0.10.0beta3 # 特定のチャンネル内に存在するパッケージ。理由は下記参照。 cntk=2.1 la…

Ubuntu 16.04でDocker CEをインストールしてNVIDIA DriverとNVIDIA Dockerを入れるまでやった作業メモ

こんにちは。今日は研究でGPUを使うことになったので、Dockerでやるかと思い、この記事を作業メモとして残す意味を込めて書こうと思います。 ○なぜDockerでGPUを動かすのか ガチでやると設定が面倒な記憶しかない。 ミスって時間を潰している人生の余裕がな…

「DIET NETWORKS: THIN PARAMETERS FOR FAT GENOMICS」の論文を読んだ

こんにちは。今日は別の研究室とうちの研究室で合同でやっているDeepLearning勉強会があり、そこで「DIET NETWORKS: THIN PARAMETERS FOR FAT GENOMICS」の論文について発表したので、その際に作った発表資料とかメモとかを投稿しようと思います。概要とか途…

Gradient Boostingについて調べたのでまとめる

こんにちは。Gradient Boostingについて調べたのでまとめました。その他の手法やBoostingってそもそも何的な説明は以下の記事でしています。st-hakky.hatenablog.com ◯Gradient Boostingとは Gradient Boostingの誕生の経緯とかはこちらに書かれているので、…

AdaBoostについて調べたのでまとめる

こんにちは。今日はAdaBoostについて書きます。Boostingってそもそも何っていうのとか他のBoostingの手法については以下の記事をどうぞ。st-hakky.hatenablog.com ◯AdaBoostとは AdaBoostは"Adaptive Boosting"の略でBoostingのアルゴリズムとしては最初に出…

Boosting(ブースティング)について調べたのでまとめる:AdaBoost / Gradient Boosting / XGBoostなど

こんにちは。最近、アンサンブル学習について勉強しているんですが、この記事ではBoostingについて調べたことを書きます。以下がその他のアンサンブル学習とか全般的な話とかについて書いた記事なので、バギングとか知りたい人は以下の記事をどうぞ。st-hakk…

Bagging(バギング)について調べたのでまとめた:Out-of-Bag(OOB) / Random Forest / Decision Jungles / Deep Forest(gcForest)

こんにちは。Kaggleをやるにあたって(というかふつうに勉強したかったのもある)、アンサンブル学習の方法は勉強しておく必要があるようなーと思って、勉強してみました。他のブースティングやスタッキング、アンサンブル学習全般については以下の記事をどう…

アンサンブル学習について勉強したのでまとめました:Bagging(Random Forest / Decision Jungles / Deep Forest) / Boosting(AdaBoost / Gradient Boosting / XGBoost) / Stacking

こんにちは。今、KaggleのRestaurant Revenue Predictionをやっていて、その中でアンサンブル学習について再度学習してみたので、まとめました。結構ながくなっちゃったかもですが、頑張って参考文献に飛ばしたりとかしてまとめました(笑) アンサンブル学習…

Kaggleを始める際に知っておくべきTipsをまとめてみた

こんにちは。Kaggleの準備するがてらまとめておこうかと。 【Kaggleを始めるにあたって知っておくべきことリスト】 ・Kaggleとは ・Kaggleのアカウントの作成 ・コンペティションを選んで参加する ・Kaggle CLI ・Kaggle上位者達の知見を得る上のような感じ…

時系列解析:自己相関係数, 定常性, White Noise, AR, MA, ARMA, ARIMA, ARIMAXについて【調べたら随時追加】

こんにちは。最近時系列解析をすることになり、AR, MA, ARMA, ARIMA, ARIMAXあたりについて勉強したので、それについてまとめておこうかと思います。ぶっちゃけいろんなところにもうすでに解説は出ているので、これは調べている過程で参考になったリンクまと…

勾配降下法について調べてまとめてみた

こんにちは。今までなんとなくなーなーで勉強していたGradient Descentですが、ちゃんと調べて見ました。OverViewの論文があって(元はブログの投稿なので、これはそうというのかわからないけど)、今回それを読みつついろんな資料を漁る方式で勉強しました。 …

Rでアソシエーション分析:アプリオリアルゴリズム編

こんにちは。 ○arulesを使ってアソシエーション分析 ■arules関係のパッケージ 以下のサイトにまとまっている。lyle.smu.edu ■参考サイト ・CRAN - Package arules ・Reference manual : arules.pdf ■インストールと読み込み # “arules”のインストール instal…

コンピューターで「脳」がつくれるか を読んだ

こんにちは。最近研究室にあった本で気になっていた本を読んでみたので、その感想でも書きます。 ○読んだ本 「コンピューターで「脳」がつくれるか」という、以下の本を読みました。 ○本の対象読者とざっくりとした内容 この本は、ある程度予想はしていたの…

劣モジュラ最適化と機械学習を読んだ&輪講会をしたのでまとめておく【随時更新】

こんばんは。最近は本を読む速度、知識の吸収度が度を超えたスピードで進んでいることを感じております笑。 ○そもそも興味を持ったきっかけ 劣モジュラ最適化と機械学習について興味を持ったきっかけは、以下の動画が始まりでした。普通に数式なども出て来ず…

Rでグラフィカルモデル(ベイジアンネットワーク)を行う際に使うパッケージまとめ

こんにちは。Rでグラフィカルモデル(主にベイジアンネットワーク)を行う際に使うパッケージについてまとめておきます。基本的には、おそらく次の3つのRのパッケージで大丈夫かなぁと思います。他にもあればぜひ教えてください。・bnlearn ・deal ・catnet ○b…

評価方法・評価指標についてまとめる(随時更新)

こんばんは。毎回なんだっけなーとなる評価指標についてまとめます。また、英語の文献だけならいいんですが、日本語でたまに言われると面食らうので、それについてもまとめます。 ○混同行列 少しこの評価指標全般について話す前に、混同行列について書きます…