【python】seabornで棒グラフを信頼区間付きで描く

はじめに信頼区間付きの棒グラフはよく見かけます。複数グループの差が優位かどうかという議論に向いているからです。他のツールだと割と簡単に描けるグラフだったりするのですが、Pythonでやろうとするとmatplotlibは勝手に信頼区間を計算してくれません…

2019-11-08

【python】seabornで折れ線グラフを信頼区間付きで描く

python matplotlib 可視化 Tips seaborn

はじめに信頼区間というとなんとなく棒グラフにつけるものという印象がありますが、折れ線グラフでも計算すること自体はたやすくて、しかもけっこうかっこいいグラフになります。大抵は別に無くても良いのですが、たまに信頼区間が出ていると便利なときが…

2019-10-07

【python】matplotlibのboxplotで外れ値を表示しないようにする

python matplotlib Tips 可視化統計

はじめに matplotlibのboxplotを使うと簡単に箱ひげ図が描けます。ただし、デフォルト設定では外れ値が黒い円で表示されます。どんなデータでも、サンプル数が多いと一定数の外れ値は出てしまいます。ただ、図を見る人は気にするところですし、外れ値がたく…

2019-09-01

matplotlibで図全体にタイトルを付けるにはsuptitleを使う

python matplotlib Tips

はじめに matplotlibではよく一つの図の中に複数のグラフを描きます。そうすると全体に共通してタイトルを付けたくなるのですが、普通にやろうとしても個別のAxesに対して呼んでしまいがちです。図全体に対してタイトルを付けるには、suptitleを使います。m…

2019-08-29

matplotlibでAxesを真っ白にする（x軸とかy軸なんかを消して非表示にする）

python matplotlib Tips

matplotlibでAxesを真っ白にする（x軸とかy軸とか目盛りなんかを消して非表示にする） matplotlibでsubplotsを使って適当にグラフを並べるのはよくある処理だと思います。しかし、きれいに長方形で配置できないときもあります。タイル状に作るので、場合によ…

2019-07-01

SVMのsupport vectorを可視化してみた

python 機械学習可視化 SVM matplotlib 主成分分析

はじめに SVMはヒンジ関数を使ってマージン最大化を行い、境界付近のデータに基づいて分離超平面を決定する……ということはよく言われています。でも、実際のデータで確認している図はあまり見たことがありません。 sklearnのSVMのドキュメントを読んでいたら…

2019-06-27

多次元尺度構成法（MDS）で文字列の編集距離を可視化してみる

python sklearn 可視化 matplotlib 次元削減 Tips

はじめにベクトルとして表現するのが難しいけど、個体間の距離（非類似度）は定義できる……というデータがたまにあります。こういうとき、多次元尺度構成法を使うと可視化がうまくいきます。ということで、編集距離を可視化してみようと思います。データ h…

2019-06-24

sklearn.tree.plot_treeをJupyter Notebookで使うと決定木の可視化が捗る・・・かな？　matplotlibでできるよ

python 機械学習 sklearn Tips matplotlib 可視化

はじめに sklearnでは様々な方法で決定木を可視化できるのですが、これまでの方法ではそのためにはgraphvizを介する必要がありました。これは面倒くさく、トラブルの原因にもなりやすいものでした。 scikit-learn 0.21以降ではmatplotlibでプロットしてくれ…

2019-06-22

sklearnとmatplotlibでiris（3クラス）の予測確率を可視化した話

python Tips matplotlib 次元削減主成分分析 sklearn 可視化

はじめによく分類器の性質などを把握するために、2次元で可視化している図があります。特に予測確率なんかを平面的に出せるとかっこいいですよね。つまり、こういうのです。Classifier comparison — scikit-learn 0.21.3 documentation以前の記事より君はK…

2019-05-26

君はKNN（k nearest neighbor）の本当のすごさを知らない

python 機械学習 sklearn ランダムフォレスト matplotlib

はじめに KNNといえば機械学習入門書の最初の方に載っている、わかりやすいけど性能はいまいちな初心者向けの手法という認識の人も多いと思います。しかし、本当はけっこう優秀なのです。 2次元で予測させてみる予測させます。コードは軽く読み流して結果…

2019-05-24

【python】高次元の分離境界をなんとか2次元で見る

python sklearn 機械学習 matplotlib SVM ランダムフォレスト主成分分析次元削減

はじめに分類器の特性を把握するために2次元データで分離境界を見るということが行われがちですが、高次元空間における分離器の特性を正確に表している訳ではありません。ということがずっと気になっていたので、なんとか高次元空間で分類させて2次元で見…

2019-05-24

matplotlibのpcolormeshでalphaを小さくすると網目が出てくる対策

python matplotlib Tips

概要デフォルト設定だとタイトルに書いた通りの現象が起こります。網目模様が出て図が汚くなります。実験こんな単純なコード。 import numpy as np import matplotlib.pyplot as plt def main(): xx, yy = np.meshgrid(np.arange(0, 10, 0.1), np.arange(…

2019-05-14

【python】PCAと非負値行列因子分解のバイプロットを見比べる

python 機械学習次元削減 sklearn matplotlib 主成分分析

はじめに非負値行列因子分解は負の値が出現しないような行列に対して行える分解で、主成分分析とか因子分析に似ています。参考：非負値行列因子分解（NMF）をふわっと理解する - Qiita 上の記事によると、いいところとしては、非負なので現実のデータに…

2019-01-11

【python】matplotlibのhistで棒の上にラベルを表示

python Tips matplotlib

plt.histはデータを与えるとそのままヒストグラムをプロットしてくれますが、棒との位置関係に基づいてテキストなどを表示させようとすると、ちょっと困ります。しかし、plt.histの返り値を利用して棒の頂点の座標を取得すれば、そのままプロットすることが…

2018-12-14

scipy.interpolate.griddataの内挿方法による違いを比較

python scipy matplotlib 統計回帰機械学習可視化

はじめに以前、3次元のサンプルデータを内挿してmatplotlibでうまくプロットする方法について記事にしました。xyzの点データを内挿してmeshgridにしmatplotlibでプロットする - 静かなる名辞この記事では内挿のアルゴリズムをデフォルトのlinearにして使い…

2018-12-11

xyzの点データを内挿してmeshgridにしmatplotlibでプロットする

python matplotlib scipy 可視化

はじめに pythonでmatplotlibを使って作図するとき、三次元のデータでpcolormeshとかcontourでやるような等高線プロットを作りたいんだけど、手持ちのデータはxyzが紐付いた点のバラバラな離散データだけ……ということがままあります。散布図ならそれでも良…

2018-12-02

scipyで確率分布のサンプルと確率密度関数を生成する

python Tips scipy numpy matplotlib 統計

scipy.statsでは様々な統計用のユーティリティが提供されています。大抵の分布はあるし、パラメータも好きに設定できます。numpyにも充実したrandomモジュールがありますが、こちらは分布に従うデータの生成や、データのサンプリングなどしかできません。「…

2018-10-11

【python】matplotlibで背景色と枠線の色を変える

python matplotlib Tips

はじめに matplotlibでは図（figure）の背景色と枠線（エッジ）の色を自由に設定できる。その方法についてメモしておく。目次はじめに設定方法 plt.savefig()で反映されないまとめスポンサーリンク設定方法 plt.figure()の引数に渡してあげる。facecol…

2018-10-11

【python】matplotlibで図の余白を調整する

python matplotlib Tips

matplotlibで図を描画するとき、余白に納得がいかないことがある。調整方法を自分用にメモ。余白の大きさを変える plt.subplots_adjust()を使うと余白を調整できる。ドキュメントによると、デフォルト値は以下の通り。 left = 0.125 # the left side of t…

2018-05-26

【python】matplotlib.cmの使い方を説明しようと思う

python matplotlib Tips

テーマ matplotlib.cmが直接使うことはない謎の技術と思われがちなので、「普通に可愛い子なんですよ」って説明する。cm (colormap) — Matplotlib 3.0.2 documentationスポンサーリンク cmとは何かとりあえずmatplotlib.cmの属性に何があるか見てみましょう…

2018-05-19

【python】numpy.meshgridの基本的な使い方まとめ

python numpy Tips matplotlib

はじめに numpyのmeshgridの使い方があまり理解できなくて、なんとなくコピペで動かしていたので、どのようなものなのかまとめておくことにしました。目次はじめにとりあえずmeshgridを作ってみる計算する plotしてみる xyz座標の配列に変換する逆にxyz…

2018-03-28

【python】pythonで主成分分析のバイプロット

python 主成分分析 matplotlib 統計次元削減機械学習可視化

バイプロット（Biplot）という主成分分析（PCA）の結果の可視化方法があります。すごく大雑把に言うと、PCAによる写像の前の空間の各特徴（軸）が写像先の空間のどこに向いているかを可視化する方法です。具体的には、主成分ベクトル（因子負荷量などを使…

2018-03-24

【python】matplotlibで3次元データを描画し、回転アニメーションにする

python matplotlib 主成分分析機械学習

3次元くらいのデータを描画したいときがある。簡単に散布図にできると便利。データの用意 sklearnのload_irisなどで取得できるデータセットを入力にする前提の次のような関数を作った。 from sklearn.decomposition import PCA def gen_3d_data(dataset): p…

2018-03-15

【python】クラスタリング結果を積み上げ棒グラフで可視化する

python pandas matplotlib クラスタリング Tips 機械学習可視化

ラベル付きデータをクラスタリングすることがよくあります（そんな頻繁にあるか？まあ、クラスタリングの使い方次第でたまにはあるからこうして記事にしている訳ですが）。各クラスタの中身がどんなラベルで構成されているのか、知りたくなります。積み上げ…

2018-02-14

【python】95%信頼楕円/確率楕円を描画する

python scipy numpy 統計 matplotlib 主成分分析

「ライブラリあるやろｗ」と思ったら、なくて顔面蒼白になった。しょうがないから調べて実装した。理論的なものちゃんと数式を書いて説明する気概がないので、アバウトに説明する。適当な二次元正規分布のデータがあるとする。PCAと同じ要領で分散共分散…

2017-02-26

【python】pca、mds、nmds、tsneとmatplotlibでデータの可視化をしてみる

python sklearn 機械学習 matplotlib 主成分分析可視化

タイトルの通りのことをする。データセットはirisとdigitsを使ってみる。ソースコード。 # coding: UTF-8 from sklearn.datasets import load_digits, load_iris from sklearn.manifold import MDS, TSNE from sklearn.decomposition import PCA from matpl…

2016-12-15

【python】混同行列(Confusion matrix)をヒートマップにして描画

python 機械学習 matplotlib sklearn 評価指標 seaborn

pythonでラクして混同行列を描画したい（sklearnとかpandasとかseabornとか使って）という話。そもそもscikit-learnにはsklearn.metrics.confusion_matrixなるメソッドがあって、混同行列がほしいときはこれ使えば解決じゃん、と思う訳だが、このconfusion_…