はじめに RandomizedSearchCVなるものがあるということを知ったので、使ってみます。うまく使うとグリッドサーチよりよい結果を生むかもしれないということです。sklearn.model_selection.RandomizedSearchCV — scikit-learn 0.21.3 documentation グリッド…

2019-03-12

scipy.optimize.curve_fitを使っていろいろな関数にフィットさせてみる

python numpy scipy Tips

はじめに scipy.optimize.curve_fitを使うと曲線あてはめができます。いろいろな関数にフィッティングさせてみて、うまくいくかどうか試してみます。scipy.optimize.curve_fit — SciPy v1.3.0 Reference Guide f(x) = x + a ただの足し算。 import numpy as …

2019-03-06

【python】scipyで線形最小二乗法

python scipy Tips 回帰

概要 scipyのscipy.optimize.lsq_linearで最小二乗法が使えます。使い方最低限必要な引数は、 A いわゆる説明変数です。基本的には(データ数, 次元数)のshapeでいいのですが、バイアス項を入れたければすべて1にした列が要ります。 b いわゆる目的変数です…

2019-02-16

【python】scipyのpdistとsquareformの使い方と仕組み

python scipy Tips

はじめに scipyで距離行列を扱うときはscipy.spatial.distanceのpdist, squareformなどを主に使いますが、長年よくわからないままに使っていたので、整理してまとめておきます。なお、以下のドキュメントを参考にします。 scipy.spatial.distance.pdist — S…

2019-02-11

【python】scipyで階層型クラスタリングするときの知見まとめ

python scipy クラスタリング統計機械学習可視化

はじめに scipyの階層型クラスタリングを使う機会がありましたが、使い方がわかりづらいと思ったのでまとめておきます。目次はじめに関数がいっぱいある使い方 linkage fcluster cophenet dendrogram 実践編データを作る手法を選ぶクラスタに分ける …

2018-12-14

scipy.interpolate.griddataの内挿方法による違いを比較

python scipy matplotlib 統計回帰機械学習可視化

はじめに以前、3次元のサンプルデータを内挿してmatplotlibでうまくプロットする方法について記事にしました。xyzの点データを内挿してmeshgridにしmatplotlibでプロットする - 静かなる名辞この記事では内挿のアルゴリズムをデフォルトのlinearにして使い…

2018-12-11

xyzの点データを内挿してmeshgridにしmatplotlibでプロットする

python matplotlib scipy 可視化

はじめに pythonでmatplotlibを使って作図するとき、三次元のデータでpcolormeshとかcontourでやるような等高線プロットを作りたいんだけど、手持ちのデータはxyzが紐付いた点のバラバラな離散データだけ……ということがままあります。散布図ならそれでも良…

2018-12-02

scipyで確率分布のサンプルと確率密度関数を生成する

python Tips scipy numpy matplotlib 統計

scipy.statsでは様々な統計用のユーティリティが提供されています。大抵の分布はあるし、パラメータも好きに設定できます。numpyにも充実したrandomモジュールがありますが、こちらは分布に従うデータの生成や、データのサンプリングなどしかできません。「…

2018-04-24

【python】pandasでデータを標準得点（z得点）に変換

python pandas scipy

データの正規化（標準化）をpandasでもやってみる。正規化、標準化とは、データを分散1、平均0に変換する操作である。スポンサーリンク自分で書いてもできるが、scipyの関数を使うと簡単にできる。 >>> import pandas as pd >>> df = pd.DataFrame([[1,2,3…

2018-04-14

【python】順列・組み合わせを計算する方法

python Tips itertools scipy

Pythonで、順列（Permutation）と組み合わせ（Combination）がほしくなるときがある。また、順列・組み合わせの数がほしくなることもある。順列・組み合わせそのものはitertoolsで、その数はscipyで出せる。計算方法についてまとめておく。

2018-04-10

【python】距離・非類似度行列を計算する

python scipy 機械学習

記事概要非類似度行列（距離行列）の計算方法について説明する。計算方法対象データと使う非類似度とりあえず、データを5つ作る。irisの先頭5要素を抽出する。 from sklearn.datasets import load_iris iris = load_iris() data = iris.data[:5] 5*5の非…

2018-03-20

【python】scipy.statsのzscoreで警告が出るときの対策

python scipy 統計

概要 z得点を計算しようとしたとき、このような警告を見かけることがあります。 RuntimeWarning: invalid value encountered in true_divide これが出た場合、結果にはnanが含まれています。なので後段の分析で落ちたりします。 >>> import numpy as np >>> …

2018-02-14

【python】95%信頼楕円/確率楕円を描画する

python scipy numpy 統計 matplotlib 主成分分析

「ライブラリあるやろｗ」と思ったら、なくて顔面蒼白になった。しょうがないから調べて実装した。理論的なものちゃんと数式を書いて説明する気概がないので、アバウトに説明する。適当な二次元正規分布のデータがあるとする。PCAと同じ要領で分散共分散…

2018-01-22

【python】pythonで情報エントロピーの計算

python scipy

情報理論でとてもよく出てくる情報エントロピー。計算するにはどうすれば良いのだろう？選択肢1：定義どおり作る定義はとても簡単です。注意するべきことは、入力に0が来たときのパターンを想定しないで作るとmath domain errorが出る（は定義できないから…