cross_val_scoreはもうやめようね。一発で交差検証するにはcross_validateを使う

python sklearn 交差検証機械学習

はじめに scikit-learnで交差検証を行い、評価指標を算出する方法としては、cross_val_scoreがよくオススメされています。実際、「sklearn 交差検証」みたいな検索キーワードでググるとこの関数がよく出てきます。しかし、この関数は複数の評価指標を算出す…

2018-03-31

【python】RandomTreesEmbeddingを試す(1)

python sklearn 機械学習ランダムフォレスト

RandomTreesEmbeddingはsklearnにたくさんある謎クラスの一つ*1。たぶんスパースコーディングに決定木を使いましょうね～系の奴なんだと思う。ドキュメントを読むと、なんとなく雰囲気はわかる。sklearn.ensemble.RandomTreesEmbedding — scikit-learn 0.2…

2018-03-31

【python】sklearnのPCAでloading（主成分負荷量）を計算する

python sklearn 統計主成分分析機械学習

PCA（主成分分析）のloading*1がほしいときがあります。 sklearnでは一発では出ません。ドキュメントはここ。 sklearn.decomposition.PCA — scikit-learn 0.21.2 documentation 目次 PCA.components_は確かにあるけど・・・ loadingを計算しよう罠だった …

2018-03-31

【python】sklearnで因子分析を試す

python sklearn 統計次元削減 Pipeline 主成分分析機械学習可視化

pythonで因子分析をやる人はあまりいないようだが、sklearnにはしっかりモデルが存在している。ついさっき気づいた。sklearn.decomposition.FactorAnalysis — scikit-learn 0.20.1 documentation 因子分析自体は前からどんなものなのか興味があり、かといっ…

2018-03-28

【python】numpyで主成分分析を実装してみた

python numpy 主成分分析統計 sklearn 次元削減機械学習可視化

numpyでPCA（principal component analysis：主成分分析）を実装してみました。自分の理解を深めるためです。 sklearnに実装されているものと同じ結果を出すことを目標にしました。最終的には上手く行きました。目次概要実装結果まとめ概要主成分分析…

2018-03-28

【python】カーネル主成分分析を試してみる

python sklearn 主成分分析次元削減 Pipeline 機械学習可視化

カーネル主成分分析（Kernel PCA）はカーネル法と主成分分析を組み合わせて用い、データを非線形次元圧縮する方法です（こんな説明で良いのか・・・）。カーネル法のことは勉強中・・・というか正直勉強しようとしてもよくわからないで跳ね返されるのをこれ…

2018-03-27

【python】SelectKBestのscore_funcによる速度差を比較

python sklearn 特徴選択機械学習速度計測シリーズ Pipeline ランダムフォレスト CountVectorizer

SelectKBestはsklearnの簡単に特徴選択ができるクラスです。ざっくりと特徴選択したいときに、とても便利です。sklearn.feature_selection.SelectKBest — scikit-learn 0.20.1 documentation ところで、このSelectKBestにはscore_funcというパラメータを指定…

2018-03-27

【python】sklearnのPCAで相関行列を使う

python sklearn 主成分分析次元削減 Pipeline 機械学習可視化データ前処理

主成分分析には共分散行列を用いる方法、相関行列を使う方法がある。 sklearnのPCAを見ると、これに対応するオプションは存在しない。sklearn.decomposition.PCA — scikit-learn 0.20.1 documentation ずっと不思議に思っていたが、ググってたらこんなものを…

2018-03-26

【python】sklearnのfetch_20newsgroupsで文書分類を試す(4)

python 自然言語処理 20newsgroups sklearn 主成分分析線形判別分析次元削減 Pipeline 機械学習ランダムフォレスト CountVectorizer

前回は性能を追い求めると次元がでかくなりすぎて・・・というところで終わっていた。今回はもうちょっと頑張って次元を減らしてみる。目次ストップワードの除去 PCA（主成分分析）とLDA（線形判別分析）分類ソースコード結果とまとめ次回過去の回ス…

2018-03-20

【python】LDA（線形判別分析）で次元削減

python sklearn 次元削減主成分分析線形判別分析 Pipeline 機械学習

一般によく使われる次元削減手法としてはPCA（主成分分析）がありますが、他にLDA（Linear Discriminant Analysis：線形判別分析）を使う方法もあります。これは本来は分類に使われる判別分析という古典的なアルゴリズムで、データが一番分離しやすくなる軸…

2018-03-19

【python】sklearnのPCAでsvd_solverによる速度差を比較

python sklearn 主成分分析次元削減機械学習 20newsgroups CountVectorizer 自然言語処理 Tips 速度計測シリーズ

sklearnのPCA（主成分分析）がやたら遅くて腹が立ちました。計算コストを下げるために次元削減してるのに、次元削減で計算コスト食ったら意味がありません。とにかくこのPCAを高速化したかったので、svd_solverを変えてどうなるか試しました。なお、腹が立…

2018-03-19

【python】tfidfは分類精度を向上させるのか？→向上しなかった

python 自然言語処理 sklearn 20newsgroups CountVectorizer TfidfVectorizer tf-idf 特徴抽出機械学習ランダムフォレスト

目次はじめに――長年の疑問検証結果 tf-idfは死んだのか？まとめはじめに――長年の疑問自然言語処理でテキスト分類などに、よくtf-idfが使われます（最近はそうでもないのかもしれないが）。一般には、tf-idfを使うことで分類精度の向上効果があると認識…

2018-03-15

【python】クラスタリング結果をエントロピーで評価する

python sklearn クラスタリング評価指標機械学習

はじめにクラスタリング結果の良し悪しを評価したいことがあります。正解ラベルがないデータに対してクラスタリングを行った場合（つまり本当に教師なし学習でやる場合）、基本的にクラスタ内距離二乗和やクラスタ中心間の距離などを使ってやる以外の方法…

2018-03-14

【python】分類タスクの評価指標の解説とsklearnでの計算方法

python 評価指標機械学習 sklearn

混同行列、適合率、再現率、F1値の基本と多クラス分類のマクロ平均・マイクロ平均の理論、それらのsklearnでの計算について解説

2018-03-12

sklearnのclassification_reportで多クラス分類の結果を簡単に見る

python sklearn 機械学習評価指標 Tips SVM 主成分分析

多クラス分類をしていると、「どのクラスが上手く分類できてて、どのクラスが上手く行ってないんだろう」と気になることがままあります。そういった情報を簡単に要約して出力してくれるのがsklearnのclassification_reportで、簡単に使える割に便利なので実…

2018-03-08

【python】RandomForestの木の本数を増やすとどうなるか？

python sklearn 機械学習ランダムフォレスト SVM 主成分分析

はじめに RandomForest（ランダムフォレスト）には木の本数という重要なパラメータがある。slearnのデフォルトは10だが、実際に使うときは1000以上にしてやらないと良い性能が得られないということをよく経験する。これを大きくすることで、一体どんな効果…

2018-03-06

【python】混合ガウスモデル (GMM)でハード・ソフトクラスタリング

python sklearn 統計クラスタリング主成分分析機械学習

ソフトクラスタリングの有名な手法としては混合ガウスモデル（混合正規分布モデル）を使った手法があります。この手法はデータが「複数の正規分布から構成されている」と仮定し、その正規分布のパラメタをEMアルゴリズム（expectation–maximization algorith…

2018-02-25

【python】sklearnのCountVectorizerの使い方

python sklearn 自然言語処理 mecab CountVectorizer TfidfVectorizer 特徴抽出 tf-idf 機械学習

sklearnのCountVectorizerを使うとBoW(Bag of Words)の特徴量が簡単に作れます。ただし、指定するパラメタが多かったり、デフォルトで英語の文字列を想定していたりして若干とっつきづらい部分もあります。この記事ではCountVectorizerの使い方を簡単に説…

2018-02-22

【python】sklearnのPipelineを使うとできること

python sklearn Tips Pipeline 機械学習特徴抽出 SVM ランダムフォレスト主成分分析

機械学習では、何段もの前処理をしてから最終的な分類や回帰のアルゴリズムに入力するということがよくあります。前処理にはけっこう泥臭い処理も多く、leakageの問題なども絡んできます。はっきり言って自分で書こうとすると面倒くさいです。こういう問題…

2018-02-22

【python】sklearnのfetch_20newsgroupsで文書分類を試す(3)

python sklearn 自然言語処理 20newsgroups 機械学習ランダムフォレスト CountVectorizer

前回はとりあえずベースラインの分類を行い、F1値にして0.7くらいの性能を得た。ここで自然言語処理的なアプローチで手法の改良に進むのもありだと思うが、とりあえずmin_dfをパラメタチューニングしてみるか、という方向に傾いている。前回は恣意的に決め…

2018-02-20

【python】sklearnのfetch_20newsgroupsで文書分類を試す(2)

python sklearn 自然言語処理 20newsgroups 機械学習ランダムフォレスト CountVectorizer

前回の続きをやっていく。とりあえず今回は簡単な方法で分類してみて、ベースラインを作ることにする。目次特徴を捨てる分類するまとめ次回何はともあれ、文書から特徴抽出してベクトル化しないと話にならない。ベースラインなのでBag of Wordsを使う…

2018-02-19

【python】sklearnのfetch_20newsgroupsで文書分類を試す(1)

python sklearn 自然言語処理 20newsgroups 機械学習

fetch_20newsgroupsはUsenetというネットニュースの記事（でいいのかな、良くない気がする）をカテゴリ別に集めたデータセット。sklearnで気楽に使えるので*1、試してみることにする。とりあえずこの記事はintroductionとし、使い方とデータの扱い方の説明…

2018-02-17

【python】スタッキング（stacking）分類器を実装して理解する

python numpy 機械学習 sklearn SVM ランダムフォレスト

最終更新：2018-04-02 はじめにスタッキング（stacking）といえば、複数の分類器を組み合わせて強い分類器を作る系の手法である。単なるvotingやsoft votingより強い。誤解を恐れずにざっくり言ってしまうと、分類器の出力（複数）と真の出力の関係を機械…

2018-02-16

【python】sklearnのVotingClassifierを試す

python sklearn 機械学習 SVM ランダムフォレスト

複数の分類器に分類を行わせ、その結果を平均した結果を得ればより正しい結果が得られるだろう・・・ということらしい。sklearn.ensemble.VotingClassifier — scikit-learn 0.20.1 documentation 先に結論を書いておくと、何種類かの分類器を入れてsklearnの…

2018-02-16

【python】正準相関分析（Canonical Correlation Analysis）を試してみる

python sklearn 統計主成分分析機械学習

正準相関分析を使うと、2つの多次元データ同士の関連性を分析できるらしい。面白そうなので試してみた。ちなみに正準相関はsklearn.cross_decomposition.CCAで使える。正準相関自体の解説はほとんどしないので、文中のリンクを参考にして欲しい*1。目次一…

2018-01-25

【python】ランダムフォレストの特徴重要度で特徴選択を試す

python 機械学習 sklearn ランダムフォレスト特徴抽出主成分分析特徴選択 seaborn

最終更新：2018-04-02 はじめに RandomForestでは特徴重要度を計算できる、というのは結構有名な話です。では、これはどの程度実用的なのでしょうか？ pythonのsklearnを使い、簡単に実験して確かめてみました。目次はじめに実験条件実験実装気を配っ…

2018-01-21

【python】numpyで最小二乗法を実装（線形、多項式、正則化など）

python 機械学習 sklearn numpy 回帰

はじめに最小二乗法をnumpyで実装してみた。理論背景についてはこちらを参照（外部リンク）。 mathtrain.jp PRMLの線形回帰モデル（線形基底関数モデル） from Yasunori Ozaki www.slideshare.net qiita.com やるべきこと最小二乗法（正確には線形基底関…

2017-02-26

【python】pca、mds、nmds、tsneとmatplotlibでデータの可視化をしてみる

python sklearn 機械学習 matplotlib 主成分分析可視化

タイトルの通りのことをする。データセットはirisとdigitsを使ってみる。ソースコード。 # coding: UTF-8 from sklearn.datasets import load_digits, load_iris from sklearn.manifold import MDS, TSNE from sklearn.decomposition import PCA from matpl…

2016-12-15

【python】混同行列(Confusion matrix)をヒートマップにして描画

python 機械学習 matplotlib sklearn 評価指標 seaborn

pythonでラクして混同行列を描画したい（sklearnとかpandasとかseabornとか使って）という話。そもそもscikit-learnにはsklearn.metrics.confusion_matrixなるメソッドがあって、混同行列がほしいときはこれ使えば解決じゃん、と思う訳だが、このconfusion_…

静かなる名辞

pythonとプログラミングのこと

sklearn

cross_val_scoreはもうやめようね。一発で交差検証するにはcross_validateを使う

【python】RandomTreesEmbeddingを試す(1)

【python】sklearnのPCAでloading（主成分負荷量）を計算する

【python】sklearnで因子分析を試す

【python】numpyで主成分分析を実装してみた

【python】カーネル主成分分析を試してみる

【python】SelectKBestのscore_funcによる速度差を比較

【python】sklearnのPCAで相関行列を使う

【python】sklearnのfetch_20newsgroupsで文書分類を試す(4)

【python】LDA（線形判別分析）で次元削減

【python】sklearnのPCAでsvd_solverによる速度差を比較

【python】tfidfは分類精度を向上させるのか？→向上しなかった

【python】クラスタリング結果をエントロピーで評価する

【python】分類タスクの評価指標の解説とsklearnでの計算方法

sklearnのclassification_reportで多クラス分類の結果を簡単に見る

【python】RandomForestの木の本数を増やすとどうなるか？

【python】混合ガウスモデル (GMM)でハード・ソフトクラスタリング

【python】sklearnのCountVectorizerの使い方

【python】sklearnのPipelineを使うとできること

【python】sklearnのfetch_20newsgroupsで文書分類を試す(3)

【python】sklearnのfetch_20newsgroupsで文書分類を試す(2)

【python】sklearnのfetch_20newsgroupsで文書分類を試す(1)

【python】スタッキング（stacking）分類器を実装して理解する

【python】sklearnのVotingClassifierを試す

【python】正準相関分析（Canonical Correlation Analysis）を試してみる

【python】ランダムフォレストの特徴重要度で特徴選択を試す

【python】numpyで最小二乗法を実装（線形、多項式、正則化など）

【python】pca、mds、nmds、tsneとmatplotlibでデータの可視化をしてみる

【python】混同行列(Confusion matrix)をヒートマップにして描画