ランダムフォレストを使うなら変数選択はしなくてもいいのか？

はじめに表題の通りの話をたまに聞きます。「ランダムフォレストは内部で変数選択を行う。なので変数選択は必要ない」という主張です。しかし個人的には、それはあくまでも他の手法*1と比べれば変数選択しなかった場合の悪影響が少ないということであっ…

2019-08-17

【python】機械学習でpandas.get_dummiesを使ってはいけない

python Tips pandas sklearn 機械学習特徴抽出

「pandasのget_dummiesでダミー変数が作れるぜ」という記事がとてもたくさんあって初心者を混乱させているのですが、これは「データ分析」には使えても「機械学習」には向きません。もう少し正確に言い換えると「訓練データからモデルを作り、未知のデータの…

2019-08-14

【python】scikit-learnで大規模疎行列を扱うときのTips

python sklearn Tips 自然言語処理 20newsgroups 特徴抽出特徴選択次元削減機械学習

はじめに自然言語処理などで大規模疎行列を扱うことがあります。一昔前はNLPといえばこれでした（最近は低次元密行列で表現することのほうが多いですが）。疎行列はその特性をうまく生かして扱うとパフォーマンス上のメリットが得られる反面、うかつにdens…

2019-07-14

scikit-learnのPolynomialFeaturesで多項式と交互作用項の特徴量を作る

python sklearn 機械学習 Tips 特徴抽出

はじめに回帰などで非線形の効果を取り扱いたいとき、多項式回帰は定番の方法です。また、交互作用項も使うと有用なときがあります。 pythonユーザはいきなりSVRやランダムフォレスト回帰などの非線形回帰を使うことが多い気もしますが、線形モデルでも特徴…

2019-07-08

非線形がなんだ！　ロジスティック回帰＋多項式でやってやる！

python 機械学習 sklearn Tips ロジスティック回帰特徴抽出可視化

はじめにロジスティック回帰はいうまでもなく線形分類器です。なので、非線形の分類問題は本来解けません。ロジスティック回帰が線形分離不可能な分類問題を解けないことの説明 - 静かなる名辞しかし、特徴量を非線形変換したり、交互作用項を入れたりして…

2019-06-29

scikit-learnのColumnTransformerを使ってみる

python sklearn 機械学習 Tips データ前処理特徴抽出

はじめに ColumnTransformerを使うと、列ごと（特徴量ごと）に異なった操作を適用するという変換を行うことができます。ドキュメントを読んでいてそのうち必要になりそうだと思ったので、理解を深めるために記事を書いておきます。はじめに使い方使って…

2019-05-15

【python】sklearnのfetch_20newsgroupsで文書分類を試す(5)

python sklearn 20newsgroups 自然言語処理機械学習特徴抽出 Pipeline tf-idf

はじめにずっと放置していたシリーズですが、その後新たに得られた知見が出てきたので、更新しておこうと思います。得られた知見いろいろ勉強した結果、以下のような考えに至りました。そもそもデータ数が多いので、高級な分類器であればあるほど速度的…

2018-12-10

【python】sklearnのFeatureAgglomerationを使ってみる

python sklearn 次元削減機械学習特徴抽出クラスタリング主成分分析データ前処理

はじめに FeatureAgglomerationは階層的クラスタリングを用いた教師なし次元削減のモデルです。特徴量に対して階層的クラスタリングを行い（つまり通常のサンプルに対するクラスタリングと縦横の向きが入れ替わる）、似ている特徴量同士をマージします。マー…

2018-12-02

【python】sklearnでのカテゴリ変数の取り扱いまとめ　LabelEncoder, OneHotEncoderなど

python Tips sklearn 特徴抽出 Pipeline 機械学習データ前処理

カテゴリデータをone-hot表現として取り扱うという方法は、機械学習などでは一般的に行われます。しかし、sklearnでのサポートが微妙に悪いという問題が長年あり、やれpandasを使えだの、やれサードパーティ製ライブラリで凌げだのといった話題が乱立してい…

2018-07-09

【python】TF-IDFで重要語を抽出してみる

python 自然言語処理 sklearn numpy 20newsgroups TfidfVectorizer 特徴抽出 tf-idf 機械学習 CountVectorizer

概要すでに語り尽くされた感のあるネタですが、TF-IDFで文書の重要な単語（重要語、あるいは特徴語）を抽出してみます。 numpyとsklearnを使うと、10行程度のコードで実現できるので簡単です。スポンサーリンクコードの書き方とりあえず、対象データとし…

2018-06-13

【python】sklearnのVarianceThresholdを試してみる

python sklearn Tips 20newsgroups CountVectorizer Pipeline pandas 特徴選択特徴抽出機械学習データ前処理

はじめに VarianceThresholdは名前の通り、分散がしきい値以下の特徴量を捨てます。sklearn.feature_selection.VarianceThreshold — scikit-learn 0.20.2 documentation これといってすごいところはありませんが、気楽に使えそうなので試してみました。目次…

2018-06-09

sklearnのLabelEncoderとOneHotEncoderの使い方

python sklearn Tips 特徴抽出機械学習データ前処理

* はじめに sklearnのLabelEncoderとOneHotEncoderは、カテゴリデータを取り扱うときに大活躍します。シチュエーションとしては、 - なんかぐちゃぐちゃとカテゴリデータがある特徴量をとにかくなんとかしてしまいたい - 教師ラベルがカテゴリデータなので数…

2018-05-16

【python】sklearnで「何もしない」モデルがほしい

python sklearn 機械学習 Pipeline Tips 特徴抽出データ前処理

sklearnで「何もしない」モデルがあると、チョー便利。個人的にはそう思う。どうやって使うかというと、具体的には以前の記事で書いたFeatureUnionと組み合わせて使う。参考（以前の記事）：【python】複数の特徴をまとめるFeatureUnion - 静かなる名辞た…

2018-05-15

【python】複数の特徴をまとめるFeatureUnion

python sklearn 次元削減 Pipeline 機械学習 Tips 特徴抽出主成分分析線形判別分析

単一の入力データから、複数の処理方法で幾つもの異なる特徴量が得られる・・・というシチュエーションがある。この場合、「どれが最善か」という観点でどれか一つを選ぶこともできるけど、そうすると他の特徴量の情報は捨ててしまうことになる。総合的な性…

2018-03-19

【python】tfidfは分類精度を向上させるのか？→向上しなかった

python 自然言語処理 sklearn 20newsgroups CountVectorizer TfidfVectorizer tf-idf 特徴抽出機械学習ランダムフォレスト

目次はじめに――長年の疑問検証結果 tf-idfは死んだのか？まとめはじめに――長年の疑問自然言語処理でテキスト分類などに、よくtf-idfが使われます（最近はそうでもないのかもしれないが）。一般には、tf-idfを使うことで分類精度の向上効果があると認識…

2018-02-25

【python】sklearnのCountVectorizerの使い方

python sklearn 自然言語処理 mecab CountVectorizer TfidfVectorizer 特徴抽出 tf-idf 機械学習

sklearnのCountVectorizerを使うとBoW(Bag of Words)の特徴量が簡単に作れます。ただし、指定するパラメタが多かったり、デフォルトで英語の文字列を想定していたりして若干とっつきづらい部分もあります。この記事ではCountVectorizerの使い方を簡単に説…

2018-02-22

【python】sklearnのPipelineを使うとできること

python sklearn Tips Pipeline 機械学習特徴抽出 SVM ランダムフォレスト主成分分析

機械学習では、何段もの前処理をしてから最終的な分類や回帰のアルゴリズムに入力するということがよくあります。前処理にはけっこう泥臭い処理も多く、leakageの問題なども絡んできます。はっきり言って自分で書こうとすると面倒くさいです。こういう問題…

2018-01-25

【python】ランダムフォレストの特徴重要度で特徴選択を試す

python 機械学習 sklearn ランダムフォレスト特徴抽出主成分分析特徴選択 seaborn

最終更新：2018-04-02 はじめに RandomForestでは特徴重要度を計算できる、というのは結構有名な話です。では、これはどの程度実用的なのでしょうか？ pythonのsklearnを使い、簡単に実験して確かめてみました。目次はじめに実験条件実験実装気を配っ…

2017-02-06

【python】pythonでn-gramの特徴量を作る

python ngram 機械学習特徴抽出

○○ってパッケージでできるよ！という意見もあると思いますが、ちょっと挙動を変えたくなる度にパッケージのhelp読んだり、微妙に柔軟性のないパッケージに苦しむ（たとえば文末の句点と次の文の最初の文字は繋げないで欲しいのにできない、とか）くらいなら…