sklearnで正則化回帰（Ridge, Lasso, ElasticNet）するときはCV付きのモデルがいいよ

python 機械学習回帰 Tips Pipeline 速度計測シリーズ

はじめに正則化回帰は割と定番のモデルなのですが、sklearnのAPIリファレンスをよく見ると、CVが末尾についたモデルがあることがわかります。 Lasso→LassoCV Ridge→RidgeCV ElasticNet→ElasticNetCV API Reference — scikit-learn 0.21.2 documentation な…

2019-05-15

【python】sklearnのfetch_20newsgroupsで文書分類を試す(5)

python sklearn 20newsgroups 自然言語処理機械学習特徴抽出 Pipeline tf-idf

はじめにずっと放置していたシリーズですが、その後新たに得られた知見が出てきたので、更新しておこうと思います。得られた知見いろいろ勉強した結果、以下のような考えに至りました。そもそもデータ数が多いので、高級な分類器であればあるほど速度的…

2018-12-26

sklearnのfetch_20newsgroups_vectorizedでベクトル化された20 newsgroupsを試す

python Tips sklearn 20newsgroups 自然言語処理 Pipeline 機械学習 CountVectorizer

はじめに 20 newsgroupsはこのブログでも過去何回か取り上げまたしが、ベクトル化済みのデータを読み込めるfetch_20newsgroups_vectorizedは意図的にスルーしていました。使えるかどうか気になったので、試してみます。sklearn.datasets.fetch_20newsgroups…

2018-12-02

【python】sklearnでのカテゴリ変数の取り扱いまとめ　LabelEncoder, OneHotEncoderなど

python Tips sklearn 特徴抽出 Pipeline 機械学習データ前処理

カテゴリデータをone-hot表現として取り扱うという方法は、機械学習などでは一般的に行われます。しかし、sklearnでのサポートが微妙に悪いという問題が長年あり、やれpandasを使えだの、やれサードパーティ製ライブラリで凌げだのといった話題が乱立してい…

2018-11-10

【python】sklearnのLDA(LatentDirichletAllocation)を試してみる

python sklearn 20newsgroups 自然言語処理 Pipeline 機械学習ランダムフォレスト CountVectorizer

注意：線形判別分析（LinearDiscriminantAnalysis）ではありません。トピックモデルのLDAです。はじめに LDAといえば、トピックモデルの代表的な手法であり、一昔前の自然言語処理では頻繁に使われていました（最近は分散表現や深層学習に押されて廃れ気味…

2018-09-11

【python】sklearnのRidgeとLassoを使ってみる

python sklearn 機械学習回帰 Pipeline

はじめに Rdige、Lassoといえば割と定番の正則化アルゴリズムです。特にLassoはスパースな解を得てくれるという触れ込みです。なんだかカッコいいので、昔から触ってみたいと思っていました。そこで簡単な関数で回帰を行い、どれくらい効果的か試してみま…

2018-06-18

GridSearchCV『の』パラメータ・チューニング高速化中心に

python 機械学習 sklearn Tips 交差検証速度計測シリーズ Pipeline 主成分分析

はじめに機械学習でパラメータ・チューニングをしたい場合、グリッドサーチを行うのが定石とされています。sklearnではグリッドサーチはGridSearchCVで行うことができます。sklearn.model_selection.GridSearchCV — scikit-learn 0.21.2 documentation それ…

2018-06-13

【python】sklearnのVarianceThresholdを試してみる

python sklearn Tips 20newsgroups CountVectorizer Pipeline pandas 特徴選択特徴抽出機械学習データ前処理

はじめに VarianceThresholdは名前の通り、分散がしきい値以下の特徴量を捨てます。sklearn.feature_selection.VarianceThreshold — scikit-learn 0.20.2 documentation これといってすごいところはありませんが、気楽に使えそうなので試してみました。目次…

2018-05-27

【python】sklearnのMeanShiftクラスタリングを試してみる

python sklearn クラスタリング MeanShift Pipeline 主成分分析機械学習データ前処理

はじめに MeanShiftはクラスタリングアルゴリズム。クラスタ数を自動で決定してくれるという長所がある。理論的には最急降下法で各クラスタの極大点を探していく感じらしいです。わかりやすい解説があったので、リンクを張っておきます（ただし私自身はすべ…

2018-05-16

【python】sklearnで「何もしない」モデルがほしい

python sklearn 機械学習 Pipeline Tips 特徴抽出データ前処理

sklearnで「何もしない」モデルがあると、チョー便利。個人的にはそう思う。どうやって使うかというと、具体的には以前の記事で書いたFeatureUnionと組み合わせて使う。参考（以前の記事）：【python】複数の特徴をまとめるFeatureUnion - 静かなる名辞た…

2018-05-15

【python】複数の特徴をまとめるFeatureUnion

python sklearn 次元削減 Pipeline 機械学習 Tips 特徴抽出主成分分析線形判別分析

単一の入力データから、複数の処理方法で幾つもの異なる特徴量が得られる・・・というシチュエーションがある。この場合、「どれが最善か」という観点でどれか一つを選ぶこともできるけど、そうすると他の特徴量の情報は捨ててしまうことになる。総合的な性…

2018-03-31

【python】sklearnで因子分析を試す

python sklearn 統計次元削減 Pipeline 主成分分析機械学習可視化

pythonで因子分析をやる人はあまりいないようだが、sklearnにはしっかりモデルが存在している。ついさっき気づいた。sklearn.decomposition.FactorAnalysis — scikit-learn 0.20.1 documentation 因子分析自体は前からどんなものなのか興味があり、かといっ…

2018-03-28

【python】カーネル主成分分析を試してみる

python sklearn 主成分分析次元削減 Pipeline 機械学習可視化

カーネル主成分分析（Kernel PCA）はカーネル法と主成分分析を組み合わせて用い、データを非線形次元圧縮する方法です（こんな説明で良いのか・・・）。カーネル法のことは勉強中・・・というか正直勉強しようとしてもよくわからないで跳ね返されるのをこれ…

2018-03-27

【python】SelectKBestのscore_funcによる速度差を比較

python sklearn 特徴選択機械学習速度計測シリーズ Pipeline ランダムフォレスト CountVectorizer

SelectKBestはsklearnの簡単に特徴選択ができるクラスです。ざっくりと特徴選択したいときに、とても便利です。sklearn.feature_selection.SelectKBest — scikit-learn 0.20.1 documentation ところで、このSelectKBestにはscore_funcというパラメータを指定…

2018-03-27

【python】sklearnのPCAで相関行列を使う

python sklearn 主成分分析次元削減 Pipeline 機械学習可視化データ前処理

主成分分析には共分散行列を用いる方法、相関行列を使う方法がある。 sklearnのPCAを見ると、これに対応するオプションは存在しない。sklearn.decomposition.PCA — scikit-learn 0.20.1 documentation ずっと不思議に思っていたが、ググってたらこんなものを…

2018-03-26

【python】sklearnのfetch_20newsgroupsで文書分類を試す(4)

python 自然言語処理 20newsgroups sklearn 主成分分析線形判別分析次元削減 Pipeline 機械学習ランダムフォレスト CountVectorizer

前回は性能を追い求めると次元がでかくなりすぎて・・・というところで終わっていた。今回はもうちょっと頑張って次元を減らしてみる。目次ストップワードの除去 PCA（主成分分析）とLDA（線形判別分析）分類ソースコード結果とまとめ次回過去の回ス…

2018-03-20

【python】LDA（線形判別分析）で次元削減

python sklearn 次元削減主成分分析線形判別分析 Pipeline 機械学習

一般によく使われる次元削減手法としてはPCA（主成分分析）がありますが、他にLDA（Linear Discriminant Analysis：線形判別分析）を使う方法もあります。これは本来は分類に使われる判別分析という古典的なアルゴリズムで、データが一番分離しやすくなる軸…

2018-03-01

python使いのためのhy基本文法まとめ

python hy lisp Pipeline

はじめに hyの使い方の記事は一定の需要があると思い、まとめて公開する。 hyはpythonの抽象構文木に変換されるlisp。lispなのでマクロなどの素敵な機能が使えるらしいが、私もよくわからないのでその辺には触れない。とりあえずpythonのコードをhyに書き写…

2018-02-22

【python】sklearnのPipelineを使うとできること

python sklearn Tips Pipeline 機械学習特徴抽出 SVM ランダムフォレスト主成分分析

機械学習では、何段もの前処理をしてから最終的な分類や回帰のアルゴリズムに入力するということがよくあります。前処理にはけっこう泥臭い処理も多く、leakageの問題なども絡んできます。はっきり言って自分で書こうとすると面倒くさいです。こういう問題…