St_Hakky’s blog

Data Science / Human Resources / Web Applicationについて書きます

自然言語処理する時に計算するJaccard係数をPythonで計算する方法まとめ

こんにちは。Jaccard係数についてPythonで実装する時にありそうなパターンをまとめてみました。また、自然言語処理の分野からJaccard係数についても調べました。 Jaccard係数 まず、Jaccard係数について説明して、その後実装の部分に入っていきます。 読み方…

2017年の振り返り

こんにちは。今年は何をやったか思い出せないくらいにはなんかやってた気がします笑。去年もやりましたが、今年も一年の振り返りをしておこうかなぁと思います。st-hakky.hatenablog.comあと、これも去年書いてますが、最近色んな人が私のブログを見てくれて…

技術特化型IT企業における技術広報はだれがやるべきなのか?

こんにちは。最近、Adevent Calendarなどで、企業がガンガン投稿しているのとかをよく見て、それと関連して技術に重きをおいているITベンチャー企業の技術広報を外からぼんやり眺めていたんですが、結構差が出ているなぁと感じました。今日は、そのことにつ…

データ分析とか学習回したりするときのPythonのログ出力について

こんにちは。もう少し勉強していきたいなと思うものの、こればっかり一生懸命になっているとあんまりコードを書く手が進まなくなるので、ぼちぼち勉強して行こうと思っているのが、ログ出力(笑)分析とかしていると、途中で学習が止まっていたり、思っていた…

【Python】数量データの正規化 ( 標準化 ) について

こんにちは。今回はデータの正規化についてです。いろんな文脈で様々な意味で使われている「正規化」っていう言葉ですが、今回は統計や機械学習で扱う数量のデータに対して行うことに絞り、まとめていきたいと思います。 Introduction ◯データの正規化とは …

BitbucketでJupyter Notebookがレンダリングされるようになったらしいので、やってみた

こんにちは。今一緒にKaggleをやっているメンバーから、slackでレンダリングのサポートがされていることを聞いたので、やってみました(10/25には既に公開されていたのに知らなかったという笑)。 ◯Githubでは既にあるのに今までなかった… Bitbucketって便利な…

Centos7にRとRstudio serverをインストール

こんにちは。Rを使うので、インストールします。これは作業ログ。 〇環境 $ cat /etc/redhat-release CentOS Linux release 7.3.1611 (Core) 〇Rのinstall Centos 7でインストールをしていきます。 ■EPELのインストール yumでインストールするために、EPELを…

HugoをCentos7にインストールしたのでその作業メモ

こんにちは。Hugoを導入したので、その作業メモを残します。 〇Hugoとは 静的なHTMLを作成することができるGo言語製の静的ページジェネレーターです。 Web : Hugo | A Fast and Flexible Website Generator Github : GitHub - gohugoio/hugo: A Fast and Fle…

フォンミーゼス・フィッシャー分布 ( von Mises-Fisher distribution)とは何なのかをPythonを使って確かめる(最尤推定もしてみた)

こんにちは。今日は「フォンミーゼス・フィッシャー分布 ( von Mises-Fisher distribution)」について調べたのでそのことについてまとめます。PRMLの2章にも出てくる分布です(2章はこの前勉強会で話したんですがしんどかったです)。 ◯フォンミーゼス・フィッ…

「異常検知と変化検知~機械学習プロフェッショナルシリーズ~」を読んで勉強会も開いて関連の情報とかも調べたのでまとめておく

こんにちは。※このエントリは、途中ですが資料の共有とかのため、突貫で体裁だけ整えて掲載しています。異常検知と変化検知の分野は、初心者なので、「こんな手法あるよ」とか「こんな論文面白いよ」とかあれば教えてほしいです。 読んだ本 最近某勉強会でい…

kerasでmultiple (複数の) 入力 / 出力 / 損失関数を扱う時のTipsをまとめる

こんにちは。 〇この記事のモチベーション Deep Learningで自分でモデルとかを作ろうとすると、複数の入力や出力、そして損失関数を取扱たくなる時期が必ず来ると思います。最近では、GoogleNetとかは中間層の途中で出力を出していたりするので、そういうの…

よく使うDockerのコマンドとかやることとかをまとめておく

こんにちは。人間の記憶要領には限界があります。私はもう大学以降の記憶しか残っておらず、友達や家族と話す昔話に対し、ほぼ全て「えーそうだっけ笑」と答える始末です笑。ということで、Dockerでよくつかうコマンドとかをまとめておきます(覚えたやつは逆…

【Python3】 functools.reduceの使い方

こんにちは。python2では標準の関数として実装されていたreduce関数ですが、python3では、functoolsのモジュールからインポートしないと使用できないようになりました。今回はこのreduceについてまとめます。 ◯reduce関数とは reduceの主な目的は、複数の値…

[Python] reprlibを使って出力文字列の長さを制限する

こんにちは。最近pythonを勉強していて、こうやって出力を返せば良いのかと納得したのがあったので、それについて紹介します。 ◯出力はしたいが、長さは制限したい debugとかをする際に、値の出力はしたいんだけど、その出力が長すぎるのもいやだみたいなと…

Goのインストール(Windows)

Go

こんにちは。ちょっと前からGoを使ってWebアプリケーションを作ってみようと思っていて、遅ればせながらちょいちょい作っていくことになりました。まずはインストールしましたので、実行できるかまでの作業ログを残します。 ○環境 Windows 10 64bit ○Goのイ…

【Progressive Growing of GANs for Improved Quality, Stability, and Variation】を読んだのでまとめる

こんにちは。GANの発音を、「ガン」 or 「ギャン」のどっちかと言われたら、「ガン」な私です(いやまぁ気持ちだけ…)。さて、先日某つぶやきサイトに流れてくるつぶやきを眺めていたら、衝撃的な動画を見つけました。それが以下の動画です。www.youtube.com …

専属の採用担当者というのは、もうあってはならないのかもしれない

こんにちは。また採用を頑張らないといけないのですが、やっぱ採用って激ムズパラダイスだなと思っていて、なんでかっていうと、採用だけで完結しない要素が多すぎるからです(ツラミ)。今日はそのあたりについて徒然と書いていこうかと(注意:これは採用経験…

[Deep Learning] Batch sizeをどうやって決めるかについてまとめる

こんにちは。Deep Learningを自分でゼロから組んで(fine tuningとかではなく)、全部ゼロから学習させるのって大変ですよね。特に、ハイパーパラメーターの設定にすごく悩みます。トップカンファレンスに出されているような高精度の論文では、そういうハイパ…

Pythonのクラスメソッド(class method)の定義の仕方とstaticmethodとの違い

こんにちは。今日は上の件について書きます。 ○クラスメソッド (class method) とは クラスメソッドとは、クラス内で定義されたメソッドで、インスタンス化しなくても呼び出すことができるメソッドのことです。これは、インスタンスではなくて、クラスそのも…

PandasのDataFrame / Seriesでリスト内の要素にマッチする or しない行 (row) だけ取り出す

こんにちは。今日はpandasのメモを。 〇やりたいこと listとかでよくやる以下みたいな判定をやりたいんです。 list_data = [1,2,3,4,5] if 1 in list_data: print('あります') else: print('ありませんでした') このような、in演算子を用いて、リスト内に含…

chardetを使って文字コードを判定する

こんにちは。今日は文字コードの判定について書きます。 ◯文字コードの識別 もう基本UTF-8にしろよって感じなんですけど、たまにアップロードされたファイルの文字コードがなにか知りたいとかっていうシーンがあります。今回はそれをPythonでやろうというも…

Centosでよくする作業のメモとか

こんにちは。以下、Centosでよく行う作業のメモです。 Centosの環境 〇現在利用しているCentos CentOS Linux release 7.3.1611 (Core) 〇Centosのバージョンの確認とOSが32bitか64bitかの確認 バージョンの確認は以下の通りで行えます。 cat /etc/redhat-rel…

「Xception: Deep Learning with Depthwise Separable Convolutions」を読んで勉強したので参考になった資料とかまとめておく

こんにちは。今Deep Learningの論文紹介をやっているのですが、私が紹介しようかなと思った論文がKerasの作者でもある@fcholletさんのCVPRの論文でした。It's official: my paper "Xception: Deep Learning with Depthwise Separable Convolutions" was acce…

「API Blueprint」を使ってWeb APIの仕様書を書くことになったのでその時に調べたこととかをまとめる

こんにちは。APIの仕様書をチームで書いて、その仕様書を元にガリガリ実装していくことになったのですが、今回「API Blueprint」というものを初めて使ったので、その時に調べたこととか参考になったサイトとかをまとめます。 〇本家のサイト 本家のサイトは…

sshfsを使ったのでまとめる(Centos 7)

こんにちは。sshfsをCentos7で使って、リモートのサーバーにあるファイルをマウントする処理を行おうと思い、やりましたのでメモしておきます。 〇Centosの環境 $ cat /etc/redhat-release CentOS Linux release 7.3.1611 (Core) 〇sshfsのインストール 世の…

GPUを使用する時によく使うコマンドとかまとめた

こんにちは。 ○GPUの種類の確認 lspci | grep -i nvidia ■参考 GPU関連でよく使うコマンドまとめ - Qiita ○nvidia driverのバージョン確認コマンド cat /proc/driver/nvidia/version ○nvidia-smiコマンド オプションはたくさんあります。よく使うコマンドと…

Neural Networkで使う活性化関数について調べたのでまとめてみた

こんにちは。ニューラルネットワークでは活性化関数を設定する必要があるわけなんですが、その活性化関数の種類は知っていてもどんなときにどんなものを使うといいか、なんかそのイメージがぱっとわくものがないかなぁと思って、調べてみました。 ○活性化関…

keras(tensorflow/theano/cntk)でGPUをnvidia-dockerから使ってみた (+αでLasagneも入れた&Dockerfileも作った)

こんにちは。今回は、主にDeep LearningをGPUで実行できる環境をDockerで作ってみました。主に入れたものは以下のものです。 keras=2.0.8 tensorflow_gpu=1.3.0 theano=0.10.0beta3 # 特定のチャンネル内に存在するパッケージ。理由は下記参照。 cntk=2.1 la…

Ubuntu16.04にRとRstudioをインストールしたのでその作業メモ

こんにちは。 ○環境 DISTRIB_ID=Ubuntu DISTRIB_RELEASE=16.04 DISTRIB_CODENAME=xenial DISTRIB_DESCRIPTION="Ubuntu 16.04.3 LTS" ○Rのインストール 本家のサイトに従い、インストールを進めていきます。 ■/etc/apt/sources.listを編集 まず、Ubuntuのバー…

データフロー図(Data Flow Diagram, DFD)をAtom上でMarkdownで書く方法を調べたのでまとめた(mermaid.js)

こんにちは。今やっているデータ分析のデータフローが結構ややこしいので、しっかりとDFDを作ることにしました。とはいえオブジェクトをGUIでグリグリ編集するのめんどくせぇので、Atomで書けるツールみたいなので、Markdownとかで気軽に編集できるものがな…