【python】sklearnで因子分析を試す
pythonで因子分析をやる人はあまりいないようだが、sklearnにはしっかりモデルが存在している。ついさっき気づいた。
sklearn.decomposition.FactorAnalysis — scikit-learn 0.20.1 documentation
因子分析自体は前からどんなものなのか興味があり、かといってググるとRだったりSPSSだったりばっかり出てきて辟易していたのだが、sklearnにあると都合が良い。さっそく使ってみよう。
目次
とりあえずirisをプロットする
私だけでも何十回もやってきた、世界中では何万回とやられてきたirisの二次元可視化をやってみる。
次のようなコードを書いた。
# coding: UTF-8 from copy import deepcopy from sklearn.datasets import load_iris from sklearn.preprocessing import StandardScaler from sklearn.decomposition import PCA, FactorAnalysis as FA from sklearn.pipeline import Pipeline import matplotlib.pyplot as plt def decomp_and_plot(dataset, model, file_name): X = model.fit_transform(dataset.data) plt.figure() plt.scatter(X[:,0], X[:,1], c=dataset.target/len(dataset.target_names)) plt.savefig(file_name) def main(): iris = load_iris() ss = StandardScaler() pca = PCA(n_components=2) pl = Pipeline([("scaler", ss), ("pca", deepcopy(pca))]) fa = FA(n_components=2, max_iter=5000) decomp_and_plot(iris, pca, "pca_plt.png") decomp_and_plot(iris, pl, "spca_plt.png") decomp_and_plot(iris, fa, "fa_plt.png") if __name__ == "__main__": main()
PCA、変数をスケーリングしたPCA(相関行列を使うことと等価)、因子分析でそれぞれplotしてみる。
結果はこれ。
相関行列はぱっと見いまいち(この絵一枚でダメかどうかは判断できないが)。
うーん、相関行列のとも違うし、なんとも言い難いというか、素人目にはぶっちゃけあんまり良くないように見えるのだが、確率モデルなのでノイズの存在を仮定して見るとこうなるということだろう。
とりあえずcomponentsを見る
次のようなmain2を作り、実行した。
def main2(): iris = load_iris() print(iris.feature_names) print("pca") pca = PCA(n_components=2) pca.fit(iris.data) print(pca.components_) print("fa") fa = FA(n_components=2, max_iter=5000) fa.fit(iris.data) print(fa.components_)
結果
['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)'] pca [[ 0.36158968 -0.08226889 0.85657211 0.35884393] [ 0.65653988 0.72971237 -0.1757674 -0.07470647]] fa [[ 0.72577591 -0.17754023 1.75733754 0.73196365] [-0.37036948 -0.24060118 0.02793388 0.04121372]]
プロット結果から予想される通り、両者のcomponentsはよく似通っている。
これがloadingなのかどうかはぶっちゃけよくわからないのだが(というか1を超えてくる時点でたぶん違うのだろうが)、とりあえずloadingだと思って解釈する。
第一因子は花弁の長さと幅、がく片の長さに対応しているので花の大きさに対応しているっぽい。花の大きさとがく片の幅はなぜか若干反比例する。
第二因子は花弁に関する係数が小さいので、がく片の大きさを表す因子と言って良さそうである。
こんなところか。
使えることはわかった
だから何? って言われると、正直答えに窮しますが・・・とにかく使えます。主成分分析で良いじゃんと言われたら何も言い返せません。