静かなる名辞

pythonとプログラミングのこと

統計

【python】sklearnのPCAでloading(主成分負荷量)を計算する

PCA(主成分分析)のloading*1がほしいときがあります。sklearnでは一発では出ません。 ドキュメントはここ。 sklearn.decomposition.PCA — scikit-learn 0.19.1 documentation 目次 PCA.components_は確かにあるけど・・・ loadingを計算しよう 罠だった 共…

【python】sklearnで因子分析を試す

pythonで因子分析をやる人はあまりいないようだが、sklearnにはしっかりモデルが存在している。ついさっき気づいた。sklearn.decomposition.FactorAnalysis — scikit-learn 0.19.1 documentation 因子分析自体は前からどんなものなのか興味があり、かといっ…

【python】pythonで主成分分析のバイプロット

バイプロット(Biplot)という主成分分析(PCA)の結果の可視化方法があります。 すごく大雑把に言うと、PCAによる写像の前の空間の各特徴(軸)が写像先の空間のどこに向いているかを可視化する方法です。これを散布図と組み合わせることで、元の空間の性質…

【python】numpyで主成分分析を実装してみた

numpyでPCA(principal component analysis:主成分分析)を実装してみました。自分の理解を深めるためです。 sklearnに実装されているものと同じ結果を出すことを目標にしました。最終的には上手く行きました。 目次 概要 実装 結果 まとめ 概要 主成分分析…

【python】scipy.statsのzscoreで警告が出るときの対策

概要 z得点を計算しようとしたとき、このような警告を見かけることがあります。 RuntimeWarning: invalid value encountered in true_divide これが出た場合、結果にはnanが含まれています。なので後段の分析で落ちたりします。 >>> import numpy as np >>> …

ブログ記事のアクセス数はパレートの法則に従うのか? 分析してみた

はじめに このブログは2016年末に立ち上げて、3ヶ月くらい書いた後一年ほど放置していたのだが、今年の1月に性懲りもなくまた書き始めた。 直接の動機は放置していた間に意外とアクセス数が伸びていたことで、具体的な数字を出すのは控えるが、帰ってきた時…

【python】混合ガウスモデル (GMM)でハード・ソフトクラスタリング

先日はFuzzy c-meansによるソフトクラスタリングを行いました。【python】skfuzzyのFuzzy c-meansでソフトクラスタリング - 静かなる名辞 ソフトクラスタリングの有名な手法としてはFuzzy c-meansの他に、混合ガウスモデル(混合正規分布モデル)を使った手…

【python】正準相関分析(Canonical Correlation Analysis)を試してみる

正準相関分析を使うと、2つの多次元データ同士の関連性を分析できるらしい。 面白そうなので試してみた。ちなみに正準相関はsklearn.cross_decomposition.CCAで使える。正準相関自体の解説はしないので、文中のリンクを参考にして欲しい*1。 ノイズに埋もれ…

【python】95%信頼楕円/確率楕円を描画する

「ライブラリあるやろw」と思ったら、なくて顔面蒼白になった。 しょうがないから調べて実装した。 理論的なもの ちゃんと数式を書いて説明する気概がないので、言葉で。 適当な二次元正規分布のデータがあるとする。PCAと同じ要領で分散共分散行列を対角化…