ランダムフォレストを使うなら変数選択はしなくてもいいのか？

はじめに表題の通りの話をたまに聞きます。「ランダムフォレストは内部で変数選択を行う。なので変数選択は必要ない」という主張です。しかし個人的には、それはあくまでも他の手法*1と比べれば変数選択しなかった場合の悪影響が少ないということであっ…

2019-06-23

ランダムフォレスト回帰で過学習を抑制

python 機械学習ランダムフォレスト sklearn

はじめにランダムフォレストは分類にも回帰にも使えます。今回は回帰を取り扱います。ランダムフォレストの厄介なところは、決定木なので油断すると過学習しまくるところです。これは分類でも問題になりますが、回帰の場合は更に問題です。ということで、…

2019-06-22

ランダムフォレストはサンプル数が多いとメモリ消費量が大きい

python 機械学習 sklearn ランダムフォレスト速度計測シリーズ

はじめに表題の通りなのですが、サンプル数が多いデータに対してランダムフォレストを使うと思いの外メモリを食います。また、ストレージにダンプしようとすると、ストレージ容量も消費します。現象なにはともあれやってみましょう。 import pickle from…

2019-06-22

ランダムフォレストで分類するときの過学習対策の検討

python 機械学習 sklearn ランダムフォレスト

はじめにランダムフォレストは決定木のアンサンブル学習なので、何も考えずに使うと過学習します。過学習対策はいろいろあるので（木の深さだったり、ノードあたりのサンプル数による制御だったり）、やってみます。まあ、その過学習した状態の方が性能良…

2019-05-26

君はKNN（k nearest neighbor）の本当のすごさを知らない

python 機械学習 sklearn ランダムフォレスト matplotlib

はじめに KNNといえば機械学習入門書の最初の方に載っている、わかりやすいけど性能はいまいちな初心者向けの手法という認識の人も多いと思います。しかし、本当はけっこう優秀なのです。 2次元で予測させてみる予測させます。コードは軽く読み流して結果…

2019-05-24

【python】高次元の分離境界をなんとか2次元で見る

python sklearn 機械学習 matplotlib SVM ランダムフォレスト主成分分析次元削減

はじめに分類器の特性を把握するために2次元データで分離境界を見るということが行われがちですが、高次元空間における分離器の特性を正確に表している訳ではありません。ということがずっと気になっていたので、なんとか高次元空間で分類させて2次元で見…

2019-05-10

scikit-learnのモデルに疎行列（csr_matrix）を渡したときの速度

python sklearn Tips 速度計測シリーズ機械学習 scipy SVM ランダムフォレスト CountVectorizer

はじめに sklearnのモデルには疎行列を取れるものもたくさんありますが、この場合速度差があったりするのでしょうか。いろいろなデータとモデルで検証を行ってみました。目次はじめに実験1：digitsを分類させてみる実験2：多項ナイーブベイズについても…

2019-04-23

AdaBoostとRandomForestの比較

sklearn python ランダムフォレスト機械学習可視化

AdaBoost（アダブースト、もしくはエイダブースト）は代表的なアンサンブル学習アルゴリズムとしてよく取り上げられるものですが、実用的に使っている事例はあまり見かけません。ランダムフォレストでいいじゃんとなっていることが多いのではないでしょうか…

2019-01-26

本当は怖いSVMと交差検証

python SVM sklearn 機械学習ネタ・小ネタ交差検証ランダムフォレスト主成分分析可視化

概要 SVMと交差検証を組み合わせて使うと、たとえ交差検証で高いスコアが出て汎化性能確保できた！と思っても想像とかけ離れた分離超平面になっていることがままある。なのでこの組み合わせは少し怖いということを説明する。コード irisを分類します。二…

2018-11-14

【python】sklearnのRFE(Recursive Feature Elimination)を使ってみる

python sklearn Tips 特徴選択機械学習ランダムフォレスト可視化

はじめに RFE(Recursive Feature Elimination)というものがあることを知ったので試してみたいと思いました。 RFEは特徴選択の手法で、その名の通り再帰的にモデルを再構築しながら特徴を選択するという特色があります。sklearn.feature_selection.RFE — scik…

2018-11-10

【python】sklearnのLDA(LatentDirichletAllocation)を試してみる

python sklearn 20newsgroups 自然言語処理 Pipeline 機械学習ランダムフォレスト CountVectorizer

注意：線形判別分析（LinearDiscriminantAnalysis）ではありません。トピックモデルのLDAです。はじめに LDAといえば、トピックモデルの代表的な手法であり、一昔前の自然言語処理では頻繁に使われていました（最近は分散表現や深層学習に押されて廃れ気味…

2018-09-21

決定木回帰、ランダムフォレスト回帰、SVRを可視化してみた

python 機械学習回帰 sklearn SVM ランダムフォレスト可視化

はじめに最近回帰モデルで遊んでいるのですが、決定木系の回帰に好印象が持てなくなりました。だって、決定木ってオーバーフィット番長ですよ？回帰とは名ばかりのカクカクの回帰曲線が出てくることは目に見えています。「そんなあなたのためにランダム…

2018-07-30

【python】ランダムフォレストのOOBエラーが役に立つか確認

python ランダムフォレスト sklearn 機械学習 Tips 交差検証

はじめに RandomForestではOOBエラー（Out-of-bag error、OOB estimate、OOB誤り率）を見ることができます。交差検証と同様に汎化性能を見れます。原理の説明とかは他に譲るのですが、これはちゃんと交差検証のように使えるのでしょうか？もちろん原理的に…

2018-05-17

【python】sklearnのclass_weightの挙動

python sklearn 機械学習 SVM ランダムフォレスト

はじめに先に断っておくと、class_weightの挙動はモデルによって異なる可能性が十分ある。今回はsklearn.svm.SVCとsklearn.ensemble.RandomForestClassifierのドキュメントを参照して、一応基本的に共通する部分を抜き出した。 class_weightを調整する必要…

2018-05-07

複数の目的変数で回帰を行う方法

python sklearn 機械学習回帰ランダムフォレスト主成分分析

はじめに回帰分析を行う際、複数の目的変数に対して回帰をしたい場合があります。普通のモデルではできないのでちょっと面食らいますが、やり方は色々あるようです。目次はじめに目的変数の数だけ回帰モデルを作る方法複数の目的変数に対応したモデルを…

2018-04-16

【python】ランダムフォレストのチューニングにOOB誤り率を使う

python sklearn ランダムフォレスト機械学習

一般的な機械学習のアルゴリズムでは、パラメタチューニングにはグリッドサーチ・交差検証を組み合わせて使うのが割と普通だと思います。sklearnにはそれ専用のGridSearchCVというクラスまで用意されています。実際問題としては、GridSearchは良いとしても…

2018-03-31

【python】RandomTreesEmbeddingを試す(1)

python sklearn 機械学習ランダムフォレスト

RandomTreesEmbeddingはsklearnにたくさんある謎クラスの一つ*1。たぶんスパースコーディングに決定木を使いましょうね～系の奴なんだと思う。ドキュメントを読むと、なんとなく雰囲気はわかる。sklearn.ensemble.RandomTreesEmbedding — scikit-learn 0.2…

2018-03-27

【python】SelectKBestのscore_funcによる速度差を比較

python sklearn 特徴選択機械学習速度計測シリーズ Pipeline ランダムフォレスト CountVectorizer

SelectKBestはsklearnの簡単に特徴選択ができるクラスです。ざっくりと特徴選択したいときに、とても便利です。sklearn.feature_selection.SelectKBest — scikit-learn 0.20.1 documentation ところで、このSelectKBestにはscore_funcというパラメータを指定…

2018-03-26

【python】sklearnのfetch_20newsgroupsで文書分類を試す(4)

python 自然言語処理 20newsgroups sklearn 主成分分析線形判別分析次元削減 Pipeline 機械学習ランダムフォレスト CountVectorizer

前回は性能を追い求めると次元がでかくなりすぎて・・・というところで終わっていた。今回はもうちょっと頑張って次元を減らしてみる。目次ストップワードの除去 PCA（主成分分析）とLDA（線形判別分析）分類ソースコード結果とまとめ次回過去の回ス…

2018-03-19

【python】tfidfは分類精度を向上させるのか？→向上しなかった

python 自然言語処理 sklearn 20newsgroups CountVectorizer TfidfVectorizer tf-idf 特徴抽出機械学習ランダムフォレスト

目次はじめに――長年の疑問検証結果 tf-idfは死んだのか？まとめはじめに――長年の疑問自然言語処理でテキスト分類などに、よくtf-idfが使われます（最近はそうでもないのかもしれないが）。一般には、tf-idfを使うことで分類精度の向上効果があると認識…

2018-03-16

ランダムフォレストとSVMの使い分け

機械学習ランダムフォレスト SVM Tips

はじめにランダムフォレスト（RandomForest）とSVM(Support Vector Machine)はよく比較される分類器です。でも、様々なシチュエーションで、けっきょくどちらを使うべきなのか、という指針はあまり見かけません。私は研究などで*1両者を使ってきて、それな…

2018-03-08

【python】RandomForestの木の本数を増やすとどうなるか？

python sklearn 機械学習ランダムフォレスト SVM 主成分分析

はじめに RandomForest（ランダムフォレスト）には木の本数という重要なパラメータがある。slearnのデフォルトは10だが、実際に使うときは1000以上にしてやらないと良い性能が得られないということをよく経験する。これを大きくすることで、一体どんな効果…

2018-02-22

【python】sklearnのPipelineを使うとできること

python sklearn Tips Pipeline 機械学習特徴抽出 SVM ランダムフォレスト主成分分析

機械学習では、何段もの前処理をしてから最終的な分類や回帰のアルゴリズムに入力するということがよくあります。前処理にはけっこう泥臭い処理も多く、leakageの問題なども絡んできます。はっきり言って自分で書こうとすると面倒くさいです。こういう問題…

2018-02-22

【python】sklearnのfetch_20newsgroupsで文書分類を試す(3)

python sklearn 自然言語処理 20newsgroups 機械学習ランダムフォレスト CountVectorizer

前回はとりあえずベースラインの分類を行い、F1値にして0.7くらいの性能を得た。ここで自然言語処理的なアプローチで手法の改良に進むのもありだと思うが、とりあえずmin_dfをパラメタチューニングしてみるか、という方向に傾いている。前回は恣意的に決め…

2018-02-20

【python】sklearnのfetch_20newsgroupsで文書分類を試す(2)

python sklearn 自然言語処理 20newsgroups 機械学習ランダムフォレスト CountVectorizer

前回の続きをやっていく。とりあえず今回は簡単な方法で分類してみて、ベースラインを作ることにする。目次特徴を捨てる分類するまとめ次回何はともあれ、文書から特徴抽出してベクトル化しないと話にならない。ベースラインなのでBag of Wordsを使う…

2018-02-17

【python】スタッキング（stacking）分類器を実装して理解する

python numpy 機械学習 sklearn SVM ランダムフォレスト

最終更新：2018-04-02 はじめにスタッキング（stacking）といえば、複数の分類器を組み合わせて強い分類器を作る系の手法である。単なるvotingやsoft votingより強い。誤解を恐れずにざっくり言ってしまうと、分類器の出力（複数）と真の出力の関係を機械…

2018-02-16

【python】sklearnのVotingClassifierを試す

python sklearn 機械学習 SVM ランダムフォレスト

複数の分類器に分類を行わせ、その結果を平均した結果を得ればより正しい結果が得られるだろう・・・ということらしい。sklearn.ensemble.VotingClassifier — scikit-learn 0.20.1 documentation 先に結論を書いておくと、何種類かの分類器を入れてsklearnの…

2018-02-03

【python・ネタ】importする順番

python ネタ・小ネタランダムフォレスト主成分分析機械学習

はじめに PEP8はimportに際し、次の順番でimportしろと規定している。 import文は次の順番でグループ化すべきです:1.標準ライブラリ 2.サードパーティに関連するもの 3.ローカルなアプリケーション/ライブラリに特有のもの普通はこの通り書けば何の問題…

2018-01-25

【python】ランダムフォレストの特徴重要度で特徴選択を試す

python 機械学習 sklearn ランダムフォレスト特徴抽出主成分分析特徴選択 seaborn

最終更新：2018-04-02 はじめに RandomForestでは特徴重要度を計算できる、というのは結構有名な話です。では、これはどの程度実用的なのでしょうか？ pythonのsklearnを使い、簡単に実験して確かめてみました。目次はじめに実験条件実験実装気を配っ…

静かなる名辞

pythonとプログラミングのこと