【python】scikit-learnで大規模疎行列を扱うときのTips

はじめに自然言語処理などで大規模疎行列を扱うことがあります。一昔前はNLPといえばこれでした（最近は低次元密行列で表現することのほうが多いですが）。疎行列はその特性をうまく生かして扱うとパフォーマンス上のメリットが得られる反面、うかつにdens…

2019-07-08

カーネルPCAで文字列の編集距離を可視化してみる

python sklearn 可視化 Tips 次元削減

はじめに以前に編集距離が計算された文字列間の位置関係をMDSを使ってまったく同じことをしましたが、今度はカーネルPCAでやってみます。違いとしては、MDSは距離行列から計算を行うのに対してカーネルPCAは類似度行列から計算を行えるということがあると…

2019-06-27

多次元尺度構成法（MDS）で文字列の編集距離を可視化してみる

python sklearn 可視化 matplotlib 次元削減 Tips

はじめにベクトルとして表現するのが難しいけど、個体間の距離（非類似度）は定義できる……というデータがたまにあります。こういうとき、多次元尺度構成法を使うと可視化がうまくいきます。ということで、編集距離を可視化してみようと思います。データ h…

2019-06-22

sklearnとmatplotlibでiris（3クラス）の予測確率を可視化した話

python Tips matplotlib 次元削減主成分分析 sklearn 可視化

はじめによく分類器の性質などを把握するために、2次元で可視化している図があります。特に予測確率なんかを平面的に出せるとかっこいいですよね。つまり、こういうのです。Classifier comparison — scikit-learn 0.21.3 documentation以前の記事より君はK…

2019-05-24

【python】高次元の分離境界をなんとか2次元で見る

python sklearn 機械学習 matplotlib SVM ランダムフォレスト主成分分析次元削減

はじめに分類器の特性を把握するために2次元データで分離境界を見るということが行われがちですが、高次元空間における分離器の特性を正確に表している訳ではありません。ということがずっと気になっていたので、なんとか高次元空間で分類させて2次元で見…

2019-05-14

【python】PCAと非負値行列因子分解のバイプロットを見比べる

python 機械学習次元削減 sklearn matplotlib 主成分分析

はじめに非負値行列因子分解は負の値が出現しないような行列に対して行える分解で、主成分分析とか因子分析に似ています。参考：非負値行列因子分解（NMF）をふわっと理解する - Qiita 上の記事によると、いいところとしては、非負なので現実のデータに…

2018-12-10

【python】sklearnのFeatureAgglomerationを使ってみる

python sklearn 次元削減機械学習特徴抽出クラスタリング主成分分析データ前処理

はじめに FeatureAgglomerationは階層的クラスタリングを用いた教師なし次元削減のモデルです。特徴量に対して階層的クラスタリングを行い（つまり通常のサンプルに対するクラスタリングと縦横の向きが入れ替わる）、似ている特徴量同士をマージします。マー…

2018-11-17

【python】sklearnのSparsePCAを使ってみる

主成分分析 sklearn python 次元削減機械学習

はじめに SparsePCAというものがあることを知ったので、使ってみようと思います。 SparsePCAとは？その名の通り、スパースな主成分分析です。スパースな主成分ベクトルを推定します。Sparse PCA - Wikipedia 原理などは理解しないで、カジュアルに使えるか…

2018-05-15

【python】複数の特徴をまとめるFeatureUnion

python sklearn 次元削減 Pipeline 機械学習 Tips 特徴抽出主成分分析線形判別分析

単一の入力データから、複数の処理方法で幾つもの異なる特徴量が得られる・・・というシチュエーションがある。この場合、「どれが最善か」という観点でどれか一つを選ぶこともできるけど、そうすると他の特徴量の情報は捨ててしまうことになる。総合的な性…

2018-04-07

【python】SOMのライブラリSomocluはかなりおすすめ

python 機械学習次元削減クラスタリング Tips 主成分分析可視化

SOM(Self-organizing maps：自己組織化写像)は割と古めの、データの可視化手法です（それ以外にも使えると思いますが）。今回はpythonのSOMライブラリSomocluを使ってみたら、けっこう良かったというネタです。目次 SOMの概要ライブラリがないそれでも頑…

2018-03-31

【python】sklearnで因子分析を試す

python sklearn 統計次元削減 Pipeline 主成分分析機械学習可視化

pythonで因子分析をやる人はあまりいないようだが、sklearnにはしっかりモデルが存在している。ついさっき気づいた。sklearn.decomposition.FactorAnalysis — scikit-learn 0.20.1 documentation 因子分析自体は前からどんなものなのか興味があり、かといっ…

2018-03-28

【python】pythonで主成分分析のバイプロット

python 主成分分析 matplotlib 統計次元削減機械学習可視化

バイプロット（Biplot）という主成分分析（PCA）の結果の可視化方法があります。すごく大雑把に言うと、PCAによる写像の前の空間の各特徴（軸）が写像先の空間のどこに向いているかを可視化する方法です。具体的には、主成分ベクトル（因子負荷量などを使…

2018-03-28

【python】numpyで主成分分析を実装してみた

python numpy 主成分分析統計 sklearn 次元削減機械学習可視化

numpyでPCA（principal component analysis：主成分分析）を実装してみました。自分の理解を深めるためです。 sklearnに実装されているものと同じ結果を出すことを目標にしました。最終的には上手く行きました。目次概要実装結果まとめ概要主成分分析…

2018-03-28

【python】カーネル主成分分析を試してみる

python sklearn 主成分分析次元削減 Pipeline 機械学習可視化

カーネル主成分分析（Kernel PCA）はカーネル法と主成分分析を組み合わせて用い、データを非線形次元圧縮する方法です（こんな説明で良いのか・・・）。カーネル法のことは勉強中・・・というか正直勉強しようとしてもよくわからないで跳ね返されるのをこれ…

2018-03-27

【python】sklearnのPCAで相関行列を使う

python sklearn 主成分分析次元削減 Pipeline 機械学習可視化データ前処理

主成分分析には共分散行列を用いる方法、相関行列を使う方法がある。 sklearnのPCAを見ると、これに対応するオプションは存在しない。sklearn.decomposition.PCA — scikit-learn 0.20.1 documentation ずっと不思議に思っていたが、ググってたらこんなものを…

2018-03-26