【python】sklearnのtolってなんだ？

sklearnの公式ドキュメントをよく読む方なら、色々なモジュールに"tol"というオプションがあることに気づいていると思います。たとえばSVCだと、こんな風に書いてあります。他のモジュールも似たり寄ったりですが。 tol : float, optional (default=1e-3)To…

2018-04-10

【python】距離・非類似度行列を計算する

python scipy 機械学習

記事概要非類似度行列（距離行列）の計算方法について説明する。計算方法対象データと使う非類似度とりあえず、データを5つ作る。irisの先頭5要素を抽出する。 from sklearn.datasets import load_iris iris = load_iris() data = iris.data[:5] 5*5の非…

2018-04-09

【python】sklearnライクなデータセットを作る

python sklearn Tips 機械学習

自作したりネットから拾ってきたデータセットに、sklearnライクなインターフェースがあるとそこそこ便利です。なので、作る方法について調べました。とりあえずデータセットを読み込んで型を調べます。 >>> from sklearn.datasets import load_iris >>> ir…

2018-04-07

【python】SOMのライブラリSomocluはかなりおすすめ

python 機械学習次元削減クラスタリング Tips 主成分分析可視化

SOM(Self-organizing maps：自己組織化写像)は割と古めの、データの可視化手法です（それ以外にも使えると思いますが）。今回はpythonのSOMライブラリSomocluを使ってみたら、けっこう良かったというネタです。目次 SOMの概要ライブラリがないそれでも頑…

2018-03-31

cross_val_scoreはもうやめようね。一発で交差検証するにはcross_validateを使う

python sklearn 交差検証機械学習

はじめに scikit-learnで交差検証を行い、評価指標を算出する方法としては、cross_val_scoreがよくオススメされています。実際、「sklearn 交差検証」みたいな検索キーワードでググるとこの関数がよく出てきます。しかし、この関数は複数の評価指標を算出す…

2018-03-31

【python】RandomTreesEmbeddingを試す(1)

python sklearn 機械学習ランダムフォレスト

RandomTreesEmbeddingはsklearnにたくさんある謎クラスの一つ*1。たぶんスパースコーディングに決定木を使いましょうね～系の奴なんだと思う。ドキュメントを読むと、なんとなく雰囲気はわかる。sklearn.ensemble.RandomTreesEmbedding — scikit-learn 0.2…

2018-03-31

【python】sklearnのPCAでloading（主成分負荷量）を計算する

python sklearn 統計主成分分析機械学習

PCA（主成分分析）のloading*1がほしいときがあります。 sklearnでは一発では出ません。ドキュメントはここ。 sklearn.decomposition.PCA — scikit-learn 0.21.2 documentation 目次 PCA.components_は確かにあるけど・・・ loadingを計算しよう罠だった …

2018-03-31

【python】sklearnで因子分析を試す

python sklearn 統計次元削減 Pipeline 主成分分析機械学習可視化

pythonで因子分析をやる人はあまりいないようだが、sklearnにはしっかりモデルが存在している。ついさっき気づいた。sklearn.decomposition.FactorAnalysis — scikit-learn 0.20.1 documentation 因子分析自体は前からどんなものなのか興味があり、かといっ…

2018-03-28

【python】pythonで主成分分析のバイプロット

python 主成分分析 matplotlib 統計次元削減機械学習可視化

バイプロット（Biplot）という主成分分析（PCA）の結果の可視化方法があります。すごく大雑把に言うと、PCAによる写像の前の空間の各特徴（軸）が写像先の空間のどこに向いているかを可視化する方法です。具体的には、主成分ベクトル（因子負荷量などを使…

2018-03-28

【python】numpyで主成分分析を実装してみた

python numpy 主成分分析統計 sklearn 次元削減機械学習可視化

numpyでPCA（principal component analysis：主成分分析）を実装してみました。自分の理解を深めるためです。 sklearnに実装されているものと同じ結果を出すことを目標にしました。最終的には上手く行きました。目次概要実装結果まとめ概要主成分分析…

2018-03-28

【python】カーネル主成分分析を試してみる

python sklearn 主成分分析次元削減 Pipeline 機械学習可視化

カーネル主成分分析（Kernel PCA）はカーネル法と主成分分析を組み合わせて用い、データを非線形次元圧縮する方法です（こんな説明で良いのか・・・）。カーネル法のことは勉強中・・・というか正直勉強しようとしてもよくわからないで跳ね返されるのをこれ…

2018-03-27

【python】SelectKBestのscore_funcによる速度差を比較

python sklearn 特徴選択機械学習速度計測シリーズ Pipeline ランダムフォレスト CountVectorizer

SelectKBestはsklearnの簡単に特徴選択ができるクラスです。ざっくりと特徴選択したいときに、とても便利です。sklearn.feature_selection.SelectKBest — scikit-learn 0.20.1 documentation ところで、このSelectKBestにはscore_funcというパラメータを指定…

2018-03-27

【python】sklearnのPCAで相関行列を使う

python sklearn 主成分分析次元削減 Pipeline 機械学習可視化データ前処理

主成分分析には共分散行列を用いる方法、相関行列を使う方法がある。 sklearnのPCAを見ると、これに対応するオプションは存在しない。sklearn.decomposition.PCA — scikit-learn 0.20.1 documentation ずっと不思議に思っていたが、ググってたらこんなものを…

2018-03-26

【python】sklearnのfetch_20newsgroupsで文書分類を試す(4)

python 自然言語処理 20newsgroups sklearn 主成分分析線形判別分析次元削減 Pipeline 機械学習ランダムフォレスト CountVectorizer

前回は性能を追い求めると次元がでかくなりすぎて・・・というところで終わっていた。今回はもうちょっと頑張って次元を減らしてみる。目次ストップワードの除去 PCA（主成分分析）とLDA（線形判別分析）分類ソースコード結果とまとめ次回過去の回ス…

2018-03-24

【python】matplotlibで3次元データを描画し、回転アニメーションにする

python matplotlib 主成分分析機械学習

3次元くらいのデータを描画したいときがある。簡単に散布図にできると便利。データの用意 sklearnのload_irisなどで取得できるデータセットを入力にする前提の次のような関数を作った。 from sklearn.decomposition import PCA def gen_3d_data(dataset): p…

2018-03-20