ロジスティック回帰で特徴語を抽出する

はじめに線形判別分析など、線形の判別モデルは係数を使って各クラスに重要な特徴を取り出すことができます。今回はロジスティック回帰を使って、20newsgroupsのデータセットから各クラスの特徴語を取り出してみます。実験以下のようなコードを走らせま…

2019-05-10

scikit-learnのモデルに疎行列（csr_matrix）を渡したときの速度

python sklearn Tips 速度計測シリーズ機械学習 scipy SVM ランダムフォレスト CountVectorizer

はじめに sklearnのモデルには疎行列を取れるものもたくさんありますが、この場合速度差があったりするのでしょうか。いろいろなデータとモデルで検証を行ってみました。目次はじめに実験1：digitsを分類させてみる実験2：多項ナイーブベイズについても…

2018-12-26

sklearnのfetch_20newsgroups_vectorizedでベクトル化された20 newsgroupsを試す

python Tips sklearn 20newsgroups 自然言語処理 Pipeline 機械学習 CountVectorizer

はじめに 20 newsgroupsはこのブログでも過去何回か取り上げまたしが、ベクトル化済みのデータを読み込めるfetch_20newsgroups_vectorizedは意図的にスルーしていました。使えるかどうか気になったので、試してみます。sklearn.datasets.fetch_20newsgroups…

2018-11-10

【python】sklearnのLDA(LatentDirichletAllocation)を試してみる

python sklearn 20newsgroups 自然言語処理 Pipeline 機械学習ランダムフォレスト CountVectorizer

注意：線形判別分析（LinearDiscriminantAnalysis）ではありません。トピックモデルのLDAです。はじめに LDAといえば、トピックモデルの代表的な手法であり、一昔前の自然言語処理では頻繁に使われていました（最近は分散表現や深層学習に押されて廃れ気味…

2018-07-09

【python】TF-IDFで重要語を抽出してみる

python 自然言語処理 sklearn numpy 20newsgroups TfidfVectorizer 特徴抽出 tf-idf 機械学習 CountVectorizer

概要すでに語り尽くされた感のあるネタですが、TF-IDFで文書の重要な単語（重要語、あるいは特徴語）を抽出してみます。 numpyとsklearnを使うと、10行程度のコードで実現できるので簡単です。スポンサーリンクコードの書き方とりあえず、対象データとし…

2018-06-13

【python】sklearnのVarianceThresholdを試してみる

python sklearn Tips 20newsgroups CountVectorizer Pipeline pandas 特徴選択特徴抽出機械学習データ前処理

はじめに VarianceThresholdは名前の通り、分散がしきい値以下の特徴量を捨てます。sklearn.feature_selection.VarianceThreshold — scikit-learn 0.20.2 documentation これといってすごいところはありませんが、気楽に使えそうなので試してみました。目次…

2018-03-27

【python】SelectKBestのscore_funcによる速度差を比較

python sklearn 特徴選択機械学習速度計測シリーズ Pipeline ランダムフォレスト CountVectorizer

SelectKBestはsklearnの簡単に特徴選択ができるクラスです。ざっくりと特徴選択したいときに、とても便利です。sklearn.feature_selection.SelectKBest — scikit-learn 0.20.1 documentation ところで、このSelectKBestにはscore_funcというパラメータを指定…

2018-03-26

【python】sklearnのfetch_20newsgroupsで文書分類を試す(4)

python 自然言語処理 20newsgroups sklearn 主成分分析線形判別分析次元削減 Pipeline 機械学習ランダムフォレスト CountVectorizer

前回は性能を追い求めると次元がでかくなりすぎて・・・というところで終わっていた。今回はもうちょっと頑張って次元を減らしてみる。目次ストップワードの除去 PCA（主成分分析）とLDA（線形判別分析）分類ソースコード結果とまとめ次回過去の回ス…

2018-03-19

【python】sklearnのPCAでsvd_solverによる速度差を比較

python sklearn 主成分分析次元削減機械学習 20newsgroups CountVectorizer 自然言語処理 Tips 速度計測シリーズ

sklearnのPCA（主成分分析）がやたら遅くて腹が立ちました。計算コストを下げるために次元削減してるのに、次元削減で計算コスト食ったら意味がありません。とにかくこのPCAを高速化したかったので、svd_solverを変えてどうなるか試しました。なお、腹が立…

2018-03-19

【python】tfidfは分類精度を向上させるのか？→向上しなかった

python 自然言語処理 sklearn 20newsgroups CountVectorizer TfidfVectorizer tf-idf 特徴抽出機械学習ランダムフォレスト

目次はじめに――長年の疑問検証結果 tf-idfは死んだのか？まとめはじめに――長年の疑問自然言語処理でテキスト分類などに、よくtf-idfが使われます（最近はそうでもないのかもしれないが）。一般には、tf-idfを使うことで分類精度の向上効果があると認識…

2018-02-25

【python】sklearnのCountVectorizerの使い方

python sklearn 自然言語処理 mecab CountVectorizer TfidfVectorizer 特徴抽出 tf-idf 機械学習

sklearnのCountVectorizerを使うとBoW(Bag of Words)の特徴量が簡単に作れます。ただし、指定するパラメタが多かったり、デフォルトで英語の文字列を想定していたりして若干とっつきづらい部分もあります。この記事ではCountVectorizerの使い方を簡単に説…

2018-02-22

【python】sklearnのfetch_20newsgroupsで文書分類を試す(3)

python sklearn 自然言語処理 20newsgroups 機械学習ランダムフォレスト CountVectorizer

前回はとりあえずベースラインの分類を行い、F1値にして0.7くらいの性能を得た。ここで自然言語処理的なアプローチで手法の改良に進むのもありだと思うが、とりあえずmin_dfをパラメタチューニングしてみるか、という方向に傾いている。前回は恣意的に決め…

2018-02-20

【python】sklearnのfetch_20newsgroupsで文書分類を試す(2)