AdaBoostとRandomForestの比較

sklearn python ランダムフォレスト機械学習可視化

AdaBoost（アダブースト、もしくはエイダブースト）は代表的なアンサンブル学習アルゴリズムとしてよく取り上げられるものですが、実用的に使っている事例はあまり見かけません。ランダムフォレストでいいじゃんとなっていることが多いのではないでしょうか…

2019-04-22

【python】sklearnのAdaBoostをデフォルトパラメータで使ってはいけない

python Tips 機械学習 sklearn

はじめに sklearnのAdaBoostを使う機会がありましたが、デフォルトパラメータのまま使ってみたら性能が悪すぎて驚きました。対策を書きます。症状とりあえずデフォルトパラメータで動かしてみて、様子を見るというシチュエーションはたくさんあると思いま…

2019-03-18

【python】sklearn 0.20でclassification_reportの仕様が変わっていた

python sklearn Tips pandas 機械学習

はじめに遅まきながら、sklearn 0.20でclassification_reportの仕様が変わったことに気づきました。基本的な使い方は変わりませんが、それなりに大きな変化になります。変更点まず0.19の引数と出力のフォーマット。 sklearn.metrics.classification_repo…

2019-03-16

【python】sklearnのRandomizedSearchCVを使ってみる

python sklearn 機械学習 Tips scipy SVM

はじめに RandomizedSearchCVなるものがあるということを知ったので、使ってみます。うまく使うとグリッドサーチよりよい結果を生むかもしれないということです。sklearn.model_selection.RandomizedSearchCV — scikit-learn 0.21.3 documentation グリッド…

2019-01-26

本当は怖いSVMと交差検証

python SVM sklearn 機械学習ネタ・小ネタ交差検証ランダムフォレスト主成分分析可視化

概要 SVMと交差検証を組み合わせて使うと、たとえ交差検証で高いスコアが出て汎化性能確保できた！と思っても想像とかけ離れた分離超平面になっていることがままある。なのでこの組み合わせは少し怖いということを説明する。コード irisを分類します。二…

2018-12-26

sklearnのfetch_20newsgroups_vectorizedでベクトル化された20 newsgroupsを試す

python Tips sklearn 20newsgroups 自然言語処理 Pipeline 機械学習 CountVectorizer

はじめに 20 newsgroupsはこのブログでも過去何回か取り上げまたしが、ベクトル化済みのデータを読み込めるfetch_20newsgroups_vectorizedは意図的にスルーしていました。使えるかどうか気になったので、試してみます。sklearn.datasets.fetch_20newsgroups…

2018-12-14

【python】sklearnのOneClassSVMを使って外れ値検知してみる

python sklearn SVM 機械学習主成分分析

はじめに OneClassSVMというものがあると知ったので使ってみます。「1クラスSVM？」と思われると思いますが、要するに異常検知・外れ値検出などで使う手法です。信頼区間を出すのに似ていますが、複雑な分布だったりそもそも分布が想定できないようなデータ…

2018-12-10

【python】sklearnのFeatureAgglomerationを使ってみる

python sklearn 次元削減機械学習特徴抽出クラスタリング主成分分析データ前処理

はじめに FeatureAgglomerationは階層的クラスタリングを用いた教師なし次元削減のモデルです。特徴量に対して階層的クラスタリングを行い（つまり通常のサンプルに対するクラスタリングと縦横の向きが入れ替わる）、似ている特徴量同士をマージします。マー…

2018-12-04

ImportError: No module named 'sklearn.cross_validation'の対処

python sklearn Tips エラー対処法機械学習

概要 sklearnで書籍やネットに掲載されているコードを実行した結果、表題のようなエラーが出ることがある。一例をあげる。 >>> from sklearn.cross_validation import cross_val_score Traceback (most recent call last): File "<stdin>", line 1, in <module> ImportErro</module></stdin>…

2018-12-02

【python】sklearnでのカテゴリ変数の取り扱いまとめ　LabelEncoder, OneHotEncoderなど

python Tips sklearn 特徴抽出 Pipeline 機械学習データ前処理

カテゴリデータをone-hot表現として取り扱うという方法は、機械学習などでは一般的に行われます。しかし、sklearnでのサポートが微妙に悪いという問題が長年あり、やれpandasを使えだの、やれサードパーティ製ライブラリで凌げだのといった話題が乱立してい…

2018-11-17

【python】sklearnのSparsePCAを使ってみる

主成分分析 sklearn python 次元削減機械学習

はじめに SparsePCAというものがあることを知ったので、使ってみようと思います。 SparsePCAとは？その名の通り、スパースな主成分分析です。スパースな主成分ベクトルを推定します。Sparse PCA - Wikipedia 原理などは理解しないで、カジュアルに使えるか…

2018-11-14

【python】sklearnのRFE(Recursive Feature Elimination)を使ってみる

python sklearn Tips 特徴選択機械学習ランダムフォレスト可視化

はじめに RFE(Recursive Feature Elimination)というものがあることを知ったので試してみたいと思いました。 RFEは特徴選択の手法で、その名の通り再帰的にモデルを再構築しながら特徴を選択するという特色があります。sklearn.feature_selection.RFE — scik…

2018-11-10

【python】sklearnのLDA(LatentDirichletAllocation)を試してみる

python sklearn 20newsgroups 自然言語処理 Pipeline 機械学習ランダムフォレスト CountVectorizer

注意：線形判別分析（LinearDiscriminantAnalysis）ではありません。トピックモデルのLDAです。はじめに LDAといえば、トピックモデルの代表的な手法であり、一昔前の自然言語処理では頻繁に使われていました（最近は分散表現や深層学習に押されて廃れ気味…

2018-09-21

決定木回帰、ランダムフォレスト回帰、SVRを可視化してみた

python 機械学習回帰 sklearn SVM ランダムフォレスト可視化

はじめに最近回帰モデルで遊んでいるのですが、決定木系の回帰に好印象が持てなくなりました。だって、決定木ってオーバーフィット番長ですよ？回帰とは名ばかりのカクカクの回帰曲線が出てくることは目に見えています。「そんなあなたのためにランダム…

2018-09-11

【python】sklearnのRidgeとLassoを使ってみる

python sklearn 機械学習回帰 Pipeline

はじめに Rdige、Lassoといえば割と定番の正則化アルゴリズムです。特にLassoはスパースな解を得てくれるという触れ込みです。なんだかカッコいいので、昔から触ってみたいと思っていました。そこで簡単な関数で回帰を行い、どれくらい効果的か試してみま…

2018-09-10

【python】線形な分類器の比較

python 機械学習 sklearn 線形判別分析 SVM ロジスティック回帰

はじめに線形な分類器は癒やしやれ、RBFカーネルだ、決定木だ、ニューラルネットだ、深層学習だ、と流行り物に乗っかって、言うことを聞かない非線形な分類器をなんとかねじ伏せている私たちは、きっと心が荒んでいるのでしょう。そんな私たちに、線形分…

2018-07-30

【python】ランダムフォレストのOOBエラーが役に立つか確認

python ランダムフォレスト sklearn 機械学習 Tips 交差検証

はじめに RandomForestではOOBエラー（Out-of-bag error、OOB estimate、OOB誤り率）を見ることができます。交差検証と同様に汎化性能を見れます。原理の説明とかは他に譲るのですが、これはちゃんと交差検証のように使えるのでしょうか？もちろん原理的に…

2018-07-09

【python】TF-IDFで重要語を抽出してみる

python 自然言語処理 sklearn numpy 20newsgroups TfidfVectorizer 特徴抽出 tf-idf 機械学習 CountVectorizer

概要すでに語り尽くされた感のあるネタですが、TF-IDFで文書の重要な単語（重要語、あるいは特徴語）を抽出してみます。 numpyとsklearnを使うと、10行程度のコードで実現できるので簡単です。スポンサーリンク (adsbygoogle = window.adsbygoogle || []).p…

2018-06-18

GridSearchCV『の』パラメータ・チューニング高速化中心に

python 機械学習 sklearn Tips 交差検証速度計測シリーズ Pipeline 主成分分析

はじめに機械学習でパラメータ・チューニングをしたい場合、グリッドサーチを行うのが定石とされています。sklearnではグリッドサーチはGridSearchCVで行うことができます。sklearn.model_selection.GridSearchCV — scikit-learn 0.21.2 documentation それ…

2018-06-13

【python】sklearnのVarianceThresholdを試してみる

python sklearn Tips 20newsgroups CountVectorizer Pipeline pandas 特徴選択特徴抽出機械学習データ前処理

はじめに VarianceThresholdは名前の通り、分散がしきい値以下の特徴量を捨てます。sklearn.feature_selection.VarianceThreshold — scikit-learn 0.20.2 documentation これといってすごいところはありませんが、気楽に使えそうなので試してみました。目次…

2018-06-09

sklearnのLabelEncoderとOneHotEncoderの使い方

python sklearn Tips 特徴抽出機械学習データ前処理

* はじめに sklearnのLabelEncoderとOneHotEncoderは、カテゴリデータを取り扱うときに大活躍します。シチュエーションとしては、 - なんかぐちゃぐちゃとカテゴリデータがある特徴量をとにかくなんとかしてしまいたい - 教師ラベルがカテゴリデータなので数…

2018-05-28

【python】MeanShiftのbandwidthを変えるとどうなるか実験してみた

python sklearn MeanShift クラスタリング主成分分析機械学習

前回の記事ではMeanShiftクラスタリングを試してみました。www.haya-programming.com このMeanShiftにはbandwidthというパラメータがあり、クラスタ数を決定する上で重要な役割を果たしているはずです。いまいち結果に納得がいかないというとき、bandwidth…

2018-05-27

【python】sklearnのMeanShiftクラスタリングを試してみる

python sklearn クラスタリング MeanShift Pipeline 主成分分析機械学習データ前処理

はじめに MeanShiftはクラスタリングアルゴリズム。クラスタ数を自動で決定してくれるという長所がある。理論的には最急降下法で各クラスタの極大点を探していく感じらしいです。わかりやすい解説があったので、リンクを張っておきます（ただし私自身はすべ…

2018-05-17

【python】sklearnのclass_weightの挙動

python sklearn 機械学習 SVM ランダムフォレスト

はじめに先に断っておくと、class_weightの挙動はモデルによって異なる可能性が十分ある。今回はsklearn.svm.SVCとsklearn.ensemble.RandomForestClassifierのドキュメントを参照して、一応基本的に共通する部分を抜き出した。 class_weightを調整する必要…

2018-05-16

【python】sklearnで「何もしない」モデルがほしい

python sklearn 機械学習 Pipeline Tips 特徴抽出データ前処理

sklearnで「何もしない」モデルがあると、チョー便利。個人的にはそう思う。どうやって使うかというと、具体的には以前の記事で書いたFeatureUnionと組み合わせて使う。参考（以前の記事）：【python】複数の特徴をまとめるFeatureUnion - 静かなる名辞た…

2018-05-15

【python】複数の特徴をまとめるFeatureUnion

python sklearn 次元削減 Pipeline 機械学習 Tips 特徴抽出主成分分析線形判別分析

単一の入力データから、複数の処理方法で幾つもの異なる特徴量が得られる・・・というシチュエーションがある。この場合、「どれが最善か」という観点でどれか一つを選ぶこともできるけど、そうすると他の特徴量の情報は捨ててしまうことになる。総合的な性…

2018-05-07

複数の目的変数で回帰を行う方法

python sklearn 機械学習回帰ランダムフォレスト主成分分析

はじめに回帰分析を行う際、複数の目的変数に対して回帰をしたい場合があります。普通のモデルではできないのでちょっと面食らいますが、やり方は色々あるようです。目次はじめに目的変数の数だけ回帰モデルを作る方法複数の目的変数に対応したモデルを…

2018-04-16

【python】ランダムフォレストのチューニングにOOB誤り率を使う

python sklearn ランダムフォレスト機械学習

一般的な機械学習のアルゴリズムでは、パラメタチューニングにはグリッドサーチ・交差検証を組み合わせて使うのが割と普通だと思います。sklearnにはそれ専用のGridSearchCVというクラスまで用意されています。実際問題としては、GridSearchは良いとしても…

2018-04-14

【python】sklearnのtolってなんだ？

python sklearn Tips 機械学習

sklearnの公式ドキュメントをよく読む方なら、色々なモジュールに"tol"というオプションがあることに気づいていると思います。たとえばSVCだと、こんな風に書いてあります。他のモジュールも似たり寄ったりですが。 tol : float, optional (default=1e-3)To…

2018-04-09

【python】sklearnライクなデータセットを作る

python sklearn Tips 機械学習

自作したりネットから拾ってきたデータセットに、sklearnライクなインターフェースがあるとそこそこ便利です。なので、作る方法について調べました。とりあえずデータセットを読み込んで型を調べます。 >>> from sklearn.datasets import load_iris >>> ir…