scikit-learnのSVMを自分で計算したカーネルで使う

はじめに多くの機械学習手法では入力される特徴量はベクトルで表されますが、ベクトルとして表現するのが難しい情報もあります。そのような場合でも、個体間の類似度さえ計算できれば機械学習を使えるというケースがあります。これが世にいうカーネル法です…

2019-07-01

SVMのsupport vectorを可視化してみた

python 機械学習可視化 SVM matplotlib 主成分分析

はじめに SVMはヒンジ関数を使ってマージン最大化を行い、境界付近のデータに基づいて分離超平面を決定する……ということはよく言われています。でも、実際のデータで確認している図はあまり見たことがありません。 sklearnのSVMのドキュメントを読んでいたら…

2019-05-24

【python】高次元の分離境界をなんとか2次元で見る

python sklearn 機械学習 matplotlib SVM ランダムフォレスト主成分分析次元削減

はじめに分類器の特性を把握するために2次元データで分離境界を見るということが行われがちですが、高次元空間における分離器の特性を正確に表している訳ではありません。ということがずっと気になっていたので、なんとか高次元空間で分類させて2次元で見…

2019-05-10

scikit-learnのモデルに疎行列（csr_matrix）を渡したときの速度

python sklearn Tips 速度計測シリーズ機械学習 scipy SVM ランダムフォレスト CountVectorizer

はじめに sklearnのモデルには疎行列を取れるものもたくさんありますが、この場合速度差があったりするのでしょうか。いろいろなデータとモデルで検証を行ってみました。目次はじめに実験1：digitsを分類させてみる実験2：多項ナイーブベイズについても…

2019-03-16

【python】sklearnのRandomizedSearchCVを使ってみる

python sklearn 機械学習 Tips scipy SVM

はじめに RandomizedSearchCVなるものがあるということを知ったので、使ってみます。うまく使うとグリッドサーチよりよい結果を生むかもしれないということです。sklearn.model_selection.RandomizedSearchCV — scikit-learn 0.21.3 documentation グリッド…

2019-01-26

本当は怖いSVMと交差検証

python SVM sklearn 機械学習ネタ・小ネタ交差検証ランダムフォレスト主成分分析可視化

概要 SVMと交差検証を組み合わせて使うと、たとえ交差検証で高いスコアが出て汎化性能確保できた！と思っても想像とかけ離れた分離超平面になっていることがままある。なのでこの組み合わせは少し怖いということを説明する。コード irisを分類します。二…

2018-12-14

【python】sklearnのOneClassSVMを使って外れ値検知してみる

python sklearn SVM 機械学習主成分分析

はじめに OneClassSVMというものがあると知ったので使ってみます。「1クラスSVM？」と思われると思いますが、要するに異常検知・外れ値検出などで使う手法です。信頼区間を出すのに似ていますが、複雑な分布だったりそもそも分布が想定できないようなデータ…

2018-09-21

決定木回帰、ランダムフォレスト回帰、SVRを可視化してみた

python 機械学習回帰 sklearn SVM ランダムフォレスト可視化

はじめに最近回帰モデルで遊んでいるのですが、決定木系の回帰に好印象が持てなくなりました。だって、決定木ってオーバーフィット番長ですよ？回帰とは名ばかりのカクカクの回帰曲線が出てくることは目に見えています。「そんなあなたのためにランダム…

2018-09-10

【python】線形な分類器の比較

python 機械学習 sklearn 線形判別分析 SVM ロジスティック回帰

はじめに線形な分類器は癒やしやれ、RBFカーネルだ、決定木だ、ニューラルネットだ、深層学習だ、と流行り物に乗っかって、言うことを聞かない非線形な分類器をなんとかねじ伏せている私たちは、きっと心が荒んでいるのでしょう。そんな私たちに、線形分…

2018-05-17

【python】sklearnのclass_weightの挙動

python sklearn 機械学習 SVM ランダムフォレスト

はじめに先に断っておくと、class_weightの挙動はモデルによって異なる可能性が十分ある。今回はsklearn.svm.SVCとsklearn.ensemble.RandomForestClassifierのドキュメントを参照して、一応基本的に共通する部分を抜き出した。 class_weightを調整する必要…

2018-03-16

ランダムフォレストとSVMの使い分け

機械学習ランダムフォレスト SVM Tips

はじめにランダムフォレスト（RandomForest）とSVM(Support Vector Machine)はよく比較される分類器です。でも、様々なシチュエーションで、けっきょくどちらを使うべきなのか、という指針はあまり見かけません。私は研究などで*1両者を使ってきて、それな…

2018-03-12

sklearnのclassification_reportで多クラス分類の結果を簡単に見る

python sklearn 機械学習評価指標 Tips SVM 主成分分析

多クラス分類をしていると、「どのクラスが上手く分類できてて、どのクラスが上手く行ってないんだろう」と気になることがままあります。そういった情報を簡単に要約して出力してくれるのがsklearnのclassification_reportで、簡単に使える割に便利なので実…

2018-03-08

【python】RandomForestの木の本数を増やすとどうなるか？

python sklearn 機械学習ランダムフォレスト SVM 主成分分析

はじめに RandomForest（ランダムフォレスト）には木の本数という重要なパラメータがある。slearnのデフォルトは10だが、実際に使うときは1000以上にしてやらないと良い性能が得られないということをよく経験する。これを大きくすることで、一体どんな効果…

2018-02-22

【python】sklearnのPipelineを使うとできること

python sklearn Tips Pipeline 機械学習特徴抽出 SVM ランダムフォレスト主成分分析

機械学習では、何段もの前処理をしてから最終的な分類や回帰のアルゴリズムに入力するということがよくあります。前処理にはけっこう泥臭い処理も多く、leakageの問題なども絡んできます。はっきり言って自分で書こうとすると面倒くさいです。こういう問題…

2018-02-17

【python】スタッキング（stacking）分類器を実装して理解する

python numpy 機械学習 sklearn SVM ランダムフォレスト

最終更新：2018-04-02 はじめにスタッキング（stacking）といえば、複数の分類器を組み合わせて強い分類器を作る系の手法である。単なるvotingやsoft votingより強い。誤解を恐れずにざっくり言ってしまうと、分類器の出力（複数）と真の出力の関係を機械…

2018-02-16

【python】sklearnのVotingClassifierを試す