cross_val_scoreはもうやめようね。一発で交差検証するにはcross_validateを使う

python sklearn 交差検証機械学習

はじめに scikit-learnで交差検証を行い、評価指標を算出する方法としては、cross_val_scoreがよくオススメされています。実際、「sklearn 交差検証」みたいな検索キーワードでググるとこの関数がよく出てきます。しかし、この関数は複数の評価指標を算出す…

2018-03-31

【python】複数の選択肢から確率で選ぶ

python numpy Tips

おみくじや福引きのようなもの、あるいは強化学習の実装などでタイトルのような「複数のものから確率で選ぶ」処理が必要になることがある。これについては以前にもこのような記事を書いた。【python】一定の確率で違う選択をする - 静かなる名辞この方法で…

2018-03-31

【python】RandomTreesEmbeddingを試す(1)

python sklearn 機械学習ランダムフォレスト

RandomTreesEmbeddingはsklearnにたくさんある謎クラスの一つ*1。たぶんスパースコーディングに決定木を使いましょうね～系の奴なんだと思う。ドキュメントを読むと、なんとなく雰囲気はわかる。sklearn.ensemble.RandomTreesEmbedding — scikit-learn 0.2…

2018-03-31

【python】sklearnのPCAでloading（主成分負荷量）を計算する

python sklearn 統計主成分分析機械学習

PCA（主成分分析）のloading*1がほしいときがあります。 sklearnでは一発では出ません。ドキュメントはここ。 sklearn.decomposition.PCA — scikit-learn 0.21.2 documentation 目次 PCA.components_は確かにあるけど・・・ loadingを計算しよう罠だった …

2018-03-31

【python】sklearnで因子分析を試す

python sklearn 統計次元削減 Pipeline 主成分分析機械学習可視化

pythonで因子分析をやる人はあまりいないようだが、sklearnにはしっかりモデルが存在している。ついさっき気づいた。sklearn.decomposition.FactorAnalysis — scikit-learn 0.20.1 documentation 因子分析自体は前からどんなものなのか興味があり、かといっ…

2018-03-29

【python】改行せずに代入文と等価のことをする

python Tips ワンライナーネタ・小ネタ

pythonワンライナーを書く上で障害になるのは、代入文の存在である。代入は関数ではなく文なので、素直に書くと一行を消費してしまうし、lambdaやコレクション型の中にも入れられない。よく知られた対策としては、グローバル変数テーブルを直接書き換える…

2018-03-29

【python】defaultdictは使い方をミスると重くて遅い

python Tips collections

defaultdictはpythonで使えるとても便利なコレクション型です。しかし、使い方には注意が必要な場合があります。目次 defaultdictの概要問題点解決策まとめ defaultdictの概要これはご存じない方向けの章なので、「知ってるよ」という方は読み飛ばして…

2018-03-28

【python】pythonで主成分分析のバイプロット

python 主成分分析 matplotlib 統計次元削減機械学習可視化

バイプロット（Biplot）という主成分分析（PCA）の結果の可視化方法があります。すごく大雑把に言うと、PCAによる写像の前の空間の各特徴（軸）が写像先の空間のどこに向いているかを可視化する方法です。具体的には、主成分ベクトル（因子負荷量などを使…

2018-03-28

【python】numpyで主成分分析を実装してみた

python numpy 主成分分析統計 sklearn 次元削減機械学習可視化

numpyでPCA（principal component analysis：主成分分析）を実装してみました。自分の理解を深めるためです。 sklearnに実装されているものと同じ結果を出すことを目標にしました。最終的には上手く行きました。目次概要実装結果まとめ概要主成分分析…

2018-03-28

【python】カーネル主成分分析を試してみる

python sklearn 主成分分析次元削減 Pipeline 機械学習可視化

カーネル主成分分析（Kernel PCA）はカーネル法と主成分分析を組み合わせて用い、データを非線形次元圧縮する方法です（こんな説明で良いのか・・・）。カーネル法のことは勉強中・・・というか正直勉強しようとしてもよくわからないで跳ね返されるのをこれ…

2018-03-27

【python】SelectKBestのscore_funcによる速度差を比較

python sklearn 特徴選択機械学習速度計測シリーズ Pipeline ランダムフォレスト CountVectorizer

SelectKBestはsklearnの簡単に特徴選択ができるクラスです。ざっくりと特徴選択したいときに、とても便利です。sklearn.feature_selection.SelectKBest — scikit-learn 0.20.1 documentation ところで、このSelectKBestにはscore_funcというパラメータを指定…

2018-03-27

【python】sklearnのPCAで相関行列を使う

python sklearn 主成分分析次元削減 Pipeline 機械学習可視化データ前処理

主成分分析には共分散行列を用いる方法、相関行列を使う方法がある。 sklearnのPCAを見ると、これに対応するオプションは存在しない。sklearn.decomposition.PCA — scikit-learn 0.20.1 documentation ずっと不思議に思っていたが、ググってたらこんなものを…

2018-03-26

【python】sklearnのfetch_20newsgroupsで文書分類を試す(4)

python 自然言語処理 20newsgroups sklearn 主成分分析線形判別分析次元削減 Pipeline 機械学習ランダムフォレスト CountVectorizer

前回は性能を追い求めると次元がでかくなりすぎて・・・というところで終わっていた。今回はもうちょっと頑張って次元を減らしてみる。目次ストップワードの除去 PCA（主成分分析）とLDA（線形判別分析）分類ソースコード結果とまとめ次回過去の回ス…

2018-03-25

【python】collections.ChainMapの使い方を理解する

python Tips collections 速度計測シリーズ

pythonで複数の辞書をマージするにはどうしたらいいのでしょうか。forループ？辞書内包表記を使う？ updateメソッド？実は、ChainMapというものもあります。実は、ChainMapというものもあります。実は、ChainMapというものもあります。その使い方について…

2018-03-25

【python】外部プロセスと標準入出力で通信する

python Tips

pythonで外部プロセス（subprocess）と、標準入出力を介したやりとりをしたいときがある。目次やってみること簡単な方法とりあえずやる解説応用：複数回入出力を送りつけたいまとめやってみること今回は問題例として、形態素解析器MeCabをpythonか…

2018-03-25

【python】nltkで英語のStemmingとLemmatization

python nltk 自然言語処理

Stemming（ステミング）は単語の語幹を取り出したいとき、Lemmatization（レンマ化、敢えてカタカナ表記するとレンマタイゼーション）はカテゴリごとにグルーピングしたりしたいときに使う。公式ドキュメントはここ。 nltk.stem package — NLTK 3.4 documen…

2018-03-24

【python】matplotlibで3次元データを描画し、回転アニメーションにする

python matplotlib 主成分分析機械学習

3次元くらいのデータを描画したいときがある。簡単に散布図にできると便利。データの用意 sklearnのload_irisなどで取得できるデータセットを入力にする前提の次のような関数を作った。 from sklearn.decomposition import PCA def gen_3d_data(dataset): p…

2018-03-24

【python】flymakeのエラー

python emacs エラー対処法

次のようなエラーを吐かれた。 Flymake: Configuration error has occurred while running(***/flymakes ***.py).Flymake will be switched OFF 原因色々あるらしいけど、今回は文字コード指定をタイポした瞬間エラーが出た。 # coding: UTF-9 たぶん、これ…

2018-03-23

【python】関数オブジェクトは辞書のキーに使える！

python ネタ・小ネタ

「まさかできねーだろｗ」と思ってやったらできたのでびっくりしたよ！ >>> def hoge(): ... return None ... >>> {hoge:1} {<function hoge at 0x7f025f18cf28>: 1} ||＜えぇ…。 lambdaでもできる。 >|python| >>> fuga = lambda:None >>> {fuga:2} {<function <lambda> at 0x7f0243880510>: 2} hogeとfugaは関</function></function>…

2018-03-23

【python】cabochaのpythonバインディングの変な挙動

python 自然言語処理構文解析

環境 ubuntu 14.04 cabocha 0.69 cabocha-python 0.69 問題の概要変な挙動だった。というか率直に言ってバグなのでは？ >>> import CaboCha >>> cparser = CaboCha.Parser() >>> tree1 = cparser.parse("吾輩は猫である。") >>> print(tree1.toString(CaboC…

2018-03-22

【python】区切り文字を含めてsplitする

python Tips 正規表現

正規表現によるsplitで区切り文字（あるいは区切り文字列）を含めたいときがある。デフォルトでは区切り文字は消える。たとえば、文を句点で分割する場合。 >>> import re >>> string = "吾輩は猫である。名前はまだない。" >>> re.split("。", string) ['…

2018-03-22

日本語モダリティ解析器 Zundaを試す

自然言語処理構文解析

日本語のモダリティを解析できるらしい。「文中のイベント（動詞や形容詞など）に対して、その真偽判断（イベントが起こったかどうか）、仮想性（仮定の話かどうか）などを解析します」とのこと。公式ページはたぶんここ。jmizuno.github.io 環境 ubuntu14.…

2018-03-21

【python】nltkで英語の形態素解析

python nltk 自然言語処理

形態素解析、いわゆるPOS taggingと呼ばれるようなタスクをnltkを使うと簡単に行なえます。日本語の解析ではmecabやjumanを使うと思いますが、英語だとnltkに入っているものが使えるので（インストールとかが）楽です。

2018-03-21

【python】文字列を一文字ずつのリストにする

python Tips

文字列はそもそもiterableなので、これが必要なことは滅多にないんだけど・・・。 >>> for c in "hogehoge": # そのままfor文に渡してオッケー。 ... print(c) ... h o g e h o g e この前必要になったので（ライブラリの引数でlist型を要求された）考えてみ…

2018-03-20

【python】scipy.statsのzscoreで警告が出るときの対策

python scipy 統計

概要 z得点を計算しようとしたとき、このような警告を見かけることがあります。 RuntimeWarning: invalid value encountered in true_divide これが出た場合、結果にはnanが含まれています。なので後段の分析で落ちたりします。 >>> import numpy as np >>> …

2018-03-20