【python】scikit-learnで大規模疎行列を扱うときのTips

はじめに自然言語処理などで大規模疎行列を扱うことがあります。一昔前はNLPといえばこれでした（最近は低次元密行列で表現することのほうが多いですが）。疎行列はその特性をうまく生かして扱うとパフォーマンス上のメリットが得られる反面、うかつにdens…

2019-07-02

ロジスティック回帰で特徴語を抽出する

python sklearn 自然言語処理 Tips 20newsgroups CountVectorizer 機械学習ロジスティック回帰

はじめに線形判別分析など、線形の判別モデルは係数を使って各クラスに重要な特徴を取り出すことができます。今回はロジスティック回帰を使って、20newsgroupsのデータセットから各クラスの特徴語を取り出してみます。実験以下のようなコードを走らせま…

2019-05-15

【python】sklearnのfetch_20newsgroupsで文書分類を試す(5)

python sklearn 20newsgroups 自然言語処理機械学習特徴抽出 Pipeline tf-idf

はじめにずっと放置していたシリーズですが、その後新たに得られた知見が出てきたので、更新しておこうと思います。得られた知見いろいろ勉強した結果、以下のような考えに至りました。そもそもデータ数が多いので、高級な分類器であればあるほど速度的…

2018-12-26

sklearnのfetch_20newsgroups_vectorizedでベクトル化された20 newsgroupsを試す

python Tips sklearn 20newsgroups 自然言語処理 Pipeline 機械学習 CountVectorizer

はじめに 20 newsgroupsはこのブログでも過去何回か取り上げまたしが、ベクトル化済みのデータを読み込めるfetch_20newsgroups_vectorizedは意図的にスルーしていました。使えるかどうか気になったので、試してみます。sklearn.datasets.fetch_20newsgroups…

2018-11-10

【python】sklearnのLDA(LatentDirichletAllocation)を試してみる

python sklearn 20newsgroups 自然言語処理 Pipeline 機械学習ランダムフォレスト CountVectorizer

注意：線形判別分析（LinearDiscriminantAnalysis）ではありません。トピックモデルのLDAです。はじめに LDAといえば、トピックモデルの代表的な手法であり、一昔前の自然言語処理では頻繁に使われていました（最近は分散表現や深層学習に押されて廃れ気味…

2018-07-09

【python】TF-IDFで重要語を抽出してみる

python 自然言語処理 sklearn numpy 20newsgroups TfidfVectorizer 特徴抽出 tf-idf 機械学習 CountVectorizer

概要すでに語り尽くされた感のあるネタですが、TF-IDFで文書の重要な単語（重要語、あるいは特徴語）を抽出してみます。 numpyとsklearnを使うと、10行程度のコードで実現できるので簡単です。スポンサーリンクコードの書き方とりあえず、対象データとし…

2018-06-13

【python】sklearnのVarianceThresholdを試してみる

python sklearn Tips 20newsgroups CountVectorizer Pipeline pandas 特徴選択特徴抽出機械学習データ前処理

はじめに VarianceThresholdは名前の通り、分散がしきい値以下の特徴量を捨てます。sklearn.feature_selection.VarianceThreshold — scikit-learn 0.20.2 documentation これといってすごいところはありませんが、気楽に使えそうなので試してみました。目次…

2018-03-26

【python】sklearnのfetch_20newsgroupsで文書分類を試す(4)

python 自然言語処理 20newsgroups sklearn 主成分分析線形判別分析次元削減 Pipeline 機械学習ランダムフォレスト CountVectorizer

前回は性能を追い求めると次元がでかくなりすぎて・・・というところで終わっていた。今回はもうちょっと頑張って次元を減らしてみる。目次ストップワードの除去 PCA（主成分分析）とLDA（線形判別分析）分類ソースコード結果とまとめ次回過去の回ス…

2018-03-19

【python】sklearnのPCAでsvd_solverによる速度差を比較

python sklearn 主成分分析次元削減機械学習 20newsgroups CountVectorizer 自然言語処理 Tips 速度計測シリーズ

sklearnのPCA（主成分分析）がやたら遅くて腹が立ちました。計算コストを下げるために次元削減してるのに、次元削減で計算コスト食ったら意味がありません。とにかくこのPCAを高速化したかったので、svd_solverを変えてどうなるか試しました。なお、腹が立…

2018-03-19

【python】tfidfは分類精度を向上させるのか？→向上しなかった

python 自然言語処理 sklearn 20newsgroups CountVectorizer TfidfVectorizer tf-idf 特徴抽出機械学習ランダムフォレスト

目次はじめに――長年の疑問検証結果 tf-idfは死んだのか？まとめはじめに――長年の疑問自然言語処理でテキスト分類などに、よくtf-idfが使われます（最近はそうでもないのかもしれないが）。一般には、tf-idfを使うことで分類精度の向上効果があると認識…

2018-02-22

【python】sklearnのfetch_20newsgroupsで文書分類を試す(3)

python sklearn 自然言語処理 20newsgroups 機械学習ランダムフォレスト CountVectorizer

前回はとりあえずベースラインの分類を行い、F1値にして0.7くらいの性能を得た。ここで自然言語処理的なアプローチで手法の改良に進むのもありだと思うが、とりあえずmin_dfをパラメタチューニングしてみるか、という方向に傾いている。前回は恣意的に決め…

2018-02-20

【python】sklearnのfetch_20newsgroupsで文書分類を試す(2)

python sklearn 自然言語処理 20newsgroups 機械学習ランダムフォレスト CountVectorizer

前回の続きをやっていく。とりあえず今回は簡単な方法で分類してみて、ベースラインを作ることにする。目次特徴を捨てる分類するまとめ次回何はともあれ、文書から特徴抽出してベクトル化しないと話にならない。ベースラインなのでBag of Wordsを使う…

2018-02-19

【python】sklearnのfetch_20newsgroupsで文書分類を試す(1)

python sklearn 自然言語処理 20newsgroups 機械学習

fetch_20newsgroupsはUsenetというネットニュースの記事（でいいのかな、良くない気がする）をカテゴリ別に集めたデータセット。sklearnで気楽に使えるので*1、試してみることにする。とりあえずこの記事はintroductionとし、使い方とデータの扱い方の説明…

静かなる名辞

pythonとプログラミングのこと

20newsgroups