scikit-learnのStandardScalerで疎行列型のまま標準化する

ことのあらましデータの標準化は機械学習の前処理としてとても重要です。そして疎行列型データ構造は、スパースなデータを表現するためにはとても適しています。残念ながら、普通に疎行列型を標準化しようとすると、疎行列性が失せます。考えてみればわか…

2019-11-18

scikit-learnで重み付きk近傍法（Weighted kNN）を試してみる

python 機械学習 sklearn Tips

はじめに k近傍法には、近傍点の重み付けをどうするかで複数のやり方が考えられます。普通のk近傍点では予測対象の点のkつの近傍点を取ってきて、そのクラスを単純に多数決します。一方で、より近い点にはより大きい重みを持たせるという発想もまた自然です…

2019-11-07

ランダムフォレストを使うなら変数選択はしなくてもいいのか？

python 機械学習 sklearn ランダムフォレスト特徴抽出特徴選択

はじめに表題の通りの話をたまに聞きます。「ランダムフォレストは内部で変数選択を行う。なので変数選択は必要ない」という主張です。しかし個人的には、それはあくまでも他の手法*1と比べれば変数選択しなかった場合の悪影響が少ないということであっ…

2019-11-05

【python】sklearnのIterativeImputerで欠損値補完

python sklearn 機械学習 Tips

注意：IterativeImputerは本記事の執筆時点（2019年11月）で実験的な実装とされており、最新の仕様等はこの記事の内容と異なる可能性があります。常にstable版の公式のドキュメントを確認してください。公式のドキュメント sklearn.impute.IterativeImputer…

2019-10-13

【python】sklearnのSimpleImputerで欠損値補完をしてみる

python sklearn Tips 機械学習 NaN

はじめに欠損値補完（nanの処理）はだいたいpandasでやる人が多いですが、最近のscikit-learnはこの辺りの前処理に対するサポートも充実してきているので、平均値で補完する程度であればかえってscikit-learnでやった方が楽かもしれません。ということで、…

2019-08-17

【python】機械学習でpandas.get_dummiesを使ってはいけない

python Tips pandas sklearn 機械学習特徴抽出

「pandasのget_dummiesでダミー変数が作れるぜ」という記事がとてもたくさんあって初心者を混乱させているのですが、これは「データ分析」には使えても「機械学習」には向きません。もう少し正確に言い換えると「訓練データからモデルを作り、未知のデータの…

2019-08-14

【python】scikit-learnで大規模疎行列を扱うときのTips

python sklearn Tips 自然言語処理 20newsgroups 特徴抽出特徴選択次元削減機械学習

はじめに自然言語処理などで大規模疎行列を扱うことがあります。一昔前はNLPといえばこれでした（最近は低次元密行列で表現することのほうが多いですが）。疎行列はその特性をうまく生かして扱うとパフォーマンス上のメリットが得られる反面、うかつにdens…

2019-07-22

【python】sklearnでQuadraticDiscriminantAnalysis（二次判別分析）を試す

python 機械学習 sklearn

はじめに線形判別分析は非線形な分布に対応できないのでだいたいイマイチなパフォーマンスになるのですが、QDA（二次判別分析）だと若干緩和されます。二次判別分析はその名の通り分離境界が二次関数になります。ということは、非線形性はありますが、大し…

2019-07-21

sklearnで正則化回帰（Ridge, Lasso, ElasticNet）するときはCV付きのモデルがいいよ

python 機械学習回帰 Tips Pipeline 速度計測シリーズ

はじめに正則化回帰は割と定番のモデルなのですが、sklearnのAPIリファレンスをよく見ると、CVが末尾についたモデルがあることがわかります。 Lasso→LassoCV Ridge→RidgeCV ElasticNet→ElasticNetCV API Reference — scikit-learn 0.21.2 documentation な…

2019-07-14

scikit-learnで目的変数を対数変換したりするTransformedTargetRegressor

python 機械学習統計 sklearn Tips 回帰

はじめに経済系の分析などで、目的変数を対数変換して分析するというケースがあります。scikit-learnはそのようなケースもサポートしています。どうやったらいいのかわからなくて、自分で変数を変換している人も中にはいるかと思いますが、モデル構築まで…

2019-07-14

scikit-learnのPolynomialFeaturesで多項式と交互作用項の特徴量を作る

python sklearn 機械学習 Tips 特徴抽出

はじめに回帰などで非線形の効果を取り扱いたいとき、多項式回帰は定番の方法です。また、交互作用項も使うと有用なときがあります。 pythonユーザはいきなりSVRやランダムフォレスト回帰などの非線形回帰を使うことが多い気もしますが、線形モデルでも特徴…

2019-07-12

sklearnのKFoldやStratifiedKFoldでrandom_stateを変えても結果が変わらないとき

python 機械学習 sklearn Tips

はじめに random_stateを設定して「結果を固定したい」ことはよくありますが、「結果を変えたい」ってあんまりないですよね。いろいろな条件下で比較して検定するときくらいでしょうか。それでも、変わるだろうなと思って変えたら変わらなくて困るというパ…

2019-07-08

非線形がなんだ！　ロジスティック回帰＋多項式でやってやる！

python 機械学習 sklearn Tips ロジスティック回帰特徴抽出可視化

はじめにロジスティック回帰はいうまでもなく線形分類器です。なので、非線形の分類問題は本来解けません。ロジスティック回帰が線形分離不可能な分類問題を解けないことの説明 - 静かなる名辞しかし、特徴量を非線形変換したり、交互作用項を入れたりして…

2019-07-07

scikit-learnのSVMを自分で計算したカーネルで使う

python Tips sklearn 機械学習 SVM

はじめに多くの機械学習手法では入力される特徴量はベクトルで表されますが、ベクトルとして表現するのが難しい情報もあります。そのような場合でも、個体間の類似度さえ計算できれば機械学習を使えるというケースがあります。これが世にいうカーネル法です…

2019-07-05

コサイン距離は距離じゃないんだから、勘違いしないでよねっ！

雑記統計ネタ・小ネタ機械学習データ前処理自然言語処理可視化

自然言語処理などでお馴染みのコサイン類似度。これを1から引いたものを「コサイン距離」と称している文献も散見されますが、この「コサイン距離」は距離としての性質を満たしません。それがどういうことなのかをこの記事で説明していきます。

2019-07-02

ロジスティック回帰で特徴語を抽出する

python sklearn 自然言語処理 Tips 20newsgroups CountVectorizer 機械学習ロジスティック回帰

はじめに線形判別分析など、線形の判別モデルは係数を使って各クラスに重要な特徴を取り出すことができます。今回はロジスティック回帰を使って、20newsgroupsのデータセットから各クラスの特徴語を取り出してみます。実験以下のようなコードを走らせま…

2019-07-01

SVMのsupport vectorを可視化してみた

python 機械学習可視化 SVM matplotlib 主成分分析

はじめに SVMはヒンジ関数を使ってマージン最大化を行い、境界付近のデータに基づいて分離超平面を決定する……ということはよく言われています。でも、実際のデータで確認している図はあまり見たことがありません。 sklearnのSVMのドキュメントを読んでいたら…

2019-06-29

scikit-learnのColumnTransformerを使ってみる

python sklearn 機械学習 Tips データ前処理特徴抽出

はじめに ColumnTransformerを使うと、列ごと（特徴量ごと）に異なった操作を適用するという変換を行うことができます。ドキュメントを読んでいてそのうち必要になりそうだと思ったので、理解を深めるために記事を書いておきます。はじめに使い方使って…

2019-06-25

決定木をいろいろな方法で可視化する

python 機械学習 sklearn Tips 可視化

はじめに決定木はデータが分類される過程がわかりやすいことから、可視化に向いています。特にサンプル数が少なく、データの特徴量の次元数が少ないようなケースではかなり直感的な結果が得られます。決定木の可視化では、原理的には単に図を描いて可視化…

2019-06-24

sklearn.tree.plot_treeをJupyter Notebookで使うと決定木の可視化が捗る・・・かな？　matplotlibでできるよ

python 機械学習 sklearn Tips matplotlib 可視化

はじめに sklearnでは様々な方法で決定木を可視化できるのですが、これまでの方法ではそのためにはgraphvizを介する必要がありました。これは面倒くさく、トラブルの原因にもなりやすいものでした。 scikit-learn 0.21以降ではmatplotlibでプロットしてくれ…

2019-06-23

ランダムフォレスト回帰で過学習を抑制

python 機械学習ランダムフォレスト sklearn

はじめにランダムフォレストは分類にも回帰にも使えます。今回は回帰を取り扱います。ランダムフォレストの厄介なところは、決定木なので油断すると過学習しまくるところです。これは分類でも問題になりますが、回帰の場合は更に問題です。ということで、…

2019-06-23

sklearnのtrain_test_splitを使うときはstratifyを指定した方が良い

python 機械学習 sklearn Tips

はじめに train_test_splitはsklearnをはじめて学んだ頃からよくお世話になっています。しかし、stratifyを指定しないとまずいことが起こり得ると最近気づきました。 stratifyって何？層化という言葉を聞いたことがある方が一定数いると思いますが、それで…

2019-06-22

ランダムフォレストはサンプル数が多いとメモリ消費量が大きい

python 機械学習 sklearn ランダムフォレスト速度計測シリーズ

はじめに表題の通りなのですが、サンプル数が多いデータに対してランダムフォレストを使うと思いの外メモリを食います。また、ストレージにダンプしようとすると、ストレージ容量も消費します。現象なにはともあれやってみましょう。 import pickle from…

2019-06-22

ランダムフォレストで分類するときの過学習対策の検討

python 機械学習 sklearn ランダムフォレスト

はじめにランダムフォレストは決定木のアンサンブル学習なので、何も考えずに使うと過学習します。過学習対策はいろいろあるので（木の深さだったり、ノードあたりのサンプル数による制御だったり）、やってみます。まあ、その過学習した状態の方が性能良…

2019-05-26

君はKNN（k nearest neighbor）の本当のすごさを知らない

python 機械学習 sklearn ランダムフォレスト matplotlib

はじめに KNNといえば機械学習入門書の最初の方に載っている、わかりやすいけど性能はいまいちな初心者向けの手法という認識の人も多いと思います。しかし、本当はけっこう優秀なのです。 2次元で予測させてみる予測させます。コードは軽く読み流して結果…

2019-05-24

【python】高次元の分離境界をなんとか2次元で見る

python sklearn 機械学習 matplotlib SVM ランダムフォレスト主成分分析次元削減

はじめに分類器の特性を把握するために2次元データで分離境界を見るということが行われがちですが、高次元空間における分離器の特性を正確に表している訳ではありません。ということがずっと気になっていたので、なんとか高次元空間で分類させて2次元で見…

2019-05-15

【python】sklearnのfetch_20newsgroupsで文書分類を試す(5)

python sklearn 20newsgroups 自然言語処理機械学習特徴抽出 Pipeline tf-idf

はじめにずっと放置していたシリーズですが、その後新たに得られた知見が出てきたので、更新しておこうと思います。得られた知見いろいろ勉強した結果、以下のような考えに至りました。そもそもデータ数が多いので、高級な分類器であればあるほど速度的…

2019-05-14

【python】PCAと非負値行列因子分解のバイプロットを見比べる

python 機械学習次元削減 sklearn matplotlib 主成分分析

はじめに非負値行列因子分解は負の値が出現しないような行列に対して行える分解で、主成分分析とか因子分析に似ています。参考：非負値行列因子分解（NMF）をふわっと理解する - Qiita 上の記事によると、いいところとしては、非負なので現実のデータに…

2019-05-10

scikit-learnのモデルに疎行列（csr_matrix）を渡したときの速度

python sklearn Tips 速度計測シリーズ機械学習 scipy SVM ランダムフォレスト CountVectorizer

はじめに sklearnのモデルには疎行列を取れるものもたくさんありますが、この場合速度差があったりするのでしょうか。いろいろなデータとモデルで検証を行ってみました。目次はじめに実験1：digitsを分類させてみる実験2：多項ナイーブベイズについても…

2019-04-23

AdaBoostとRandomForestの比較

sklearn python ランダムフォレスト機械学習可視化

AdaBoost（アダブースト、もしくはエイダブースト）は代表的なアンサンブル学習アルゴリズムとしてよく取り上げられるものですが、実用的に使っている事例はあまり見かけません。ランダムフォレストでいいじゃんとなっていることが多いのではないでしょうか…