【python】ロジスティック回帰で確率値で学習させる

はじめにロジスティック回帰は回帰という名前なのにほとんど二項判別に使われますが、たまに本当に回帰に使うときもあります。0.1とか0.4とか0.6のような目的変数を使ってモデルを作る、というケースです。ちょっとした目的で必要になるかもしれないと思っ…

2019-06-29

scikit-learnのColumnTransformerを使ってみる

python sklearn 機械学習 Tips データ前処理特徴抽出

はじめに ColumnTransformerを使うと、列ごと（特徴量ごと）に異なった操作を適用するという変換を行うことができます。ドキュメントを読んでいてそのうち必要になりそうだと思ったので、理解を深めるために記事を書いておきます。はじめに使い方使って…

2019-06-29

AIでプログラマーが失業するとか、気にしなくていいと思うよ

雑記

はじめに昨今のAIブームで、AIへの過剰な期待からか「プログラマー」が失業するのでは？ということが囁かれるようになりつつあります。人工知能によってプログラマーは失業する？AIに仕事を奪われる前にAIエンジニアになる？ | アトオシプログラマーとい…

2019-06-28

【python】ファイルのwritelinesは行を書いてくれない

python Tips ネタ・小ネタ

はじめに使ったことがないので知らなかったのですが、表題の通りwritelinesは行を書いてくれません。実験次のようなコードを書きます。test_writelines.py lst = ["hoge", "fuga", "piyo"] with open("test.txt", "w") as f: f.writelines(lst) 粛々と実…

2019-06-27

多次元尺度構成法（MDS）で文字列の編集距離を可視化してみる

python sklearn 可視化 matplotlib 次元削減 Tips

はじめにベクトルとして表現するのが難しいけど、個体間の距離（非類似度）は定義できる……というデータがたまにあります。こういうとき、多次元尺度構成法を使うと可視化がうまくいきます。ということで、編集距離を可視化してみようと思います。データ h…

2019-06-26

今あえて書く、目的別Pythonを使うメリット・デメリット

プログラミング雑記雑記 python

はじめにここ数年間、日本国内のPython事情は急速に変わったと思います。私が使い始めた4年前と比べても、ずいぶん垢抜けた感じになったというのが正直な感想です。 Python2からPython3への移行が（ようやく）進み、扱いやすくなったライブラリも良いもの…

2019-06-25

決定木をいろいろな方法で可視化する

python 機械学習 sklearn Tips 可視化

はじめに決定木はデータが分類される過程がわかりやすいことから、可視化に向いています。特にサンプル数が少なく、データの特徴量の次元数が少ないようなケースではかなり直感的な結果が得られます。決定木の可視化では、原理的には単に図を描いて可視化…

2019-06-25

TypeError: '***' object is not subscriptableの対処法

python Tips 初心者向けエラー対処法

はじめに Pythonを始めてからしばらく時間が経って、ある程度自力で複雑なプログラムを書くようになると、タイトルのようなエラーに遭遇することが多いと思います。このエラーが出たときは、たいていはロジックに問題があります。一概に通用する対処法がな…

2019-06-24

sklearn.tree.plot_treeをJupyter Notebookで使うと決定木の可視化が捗る・・・かな？　matplotlibでできるよ

python 機械学習 sklearn Tips matplotlib 可視化

はじめに sklearnでは様々な方法で決定木を可視化できるのですが、これまでの方法ではそのためにはgraphvizを介する必要がありました。これは面倒くさく、トラブルの原因にもなりやすいものでした。 scikit-learn 0.21以降ではmatplotlibでプロットしてくれ…

2019-06-23

はてなブログで自動生成されるゴミページをnoindexにする

雑記プログラミング雑記ブログ運営

はてなブログを利用していると、様々なページが自動生成されます。よくあるのは?pageのようなURLパラメータの付いた、よくわからないページでしょうか。（アーカイブの絡みで出ているのがわかることもありますし、完全によくわからないけど存在するページと…

2019-06-23

ランダムフォレスト回帰で過学習を抑制

python 機械学習ランダムフォレスト sklearn

はじめにランダムフォレストは分類にも回帰にも使えます。今回は回帰を取り扱います。ランダムフォレストの厄介なところは、決定木なので油断すると過学習しまくるところです。これは分類でも問題になりますが、回帰の場合は更に問題です。ということで、…

2019-06-23

sklearnのtrain_test_splitを使うときはstratifyを指定した方が良い

python 機械学習 sklearn Tips

はじめに train_test_splitはsklearnをはじめて学んだ頃からよくお世話になっています。しかし、stratifyを指定しないとまずいことが起こり得ると最近気づきました。 stratifyって何？層化という言葉を聞いたことがある方が一定数いると思いますが、それで…

2019-06-22

ランダムフォレストはサンプル数が多いとメモリ消費量が大きい

python 機械学習 sklearn ランダムフォレスト速度計測シリーズ

はじめに表題の通りなのですが、サンプル数が多いデータに対してランダムフォレストを使うと思いの外メモリを食います。また、ストレージにダンプしようとすると、ストレージ容量も消費します。現象なにはともあれやってみましょう。 import pickle from…

2019-06-22

sklearnとmatplotlibでiris（3クラス）の予測確率を可視化した話

python Tips matplotlib 次元削減主成分分析 sklearn 可視化

はじめによく分類器の性質などを把握するために、2次元で可視化している図があります。特に予測確率なんかを平面的に出せるとかっこいいですよね。つまり、こういうのです。Classifier comparison — scikit-learn 0.21.3 documentation以前の記事より君はK…

2019-06-22

ランダムフォレストで分類するときの過学習対策の検討

python 機械学習 sklearn ランダムフォレスト

はじめにランダムフォレストは決定木のアンサンブル学習なので、何も考えずに使うと過学習します。過学習対策はいろいろあるので（木の深さだったり、ノードあたりのサンプル数による制御だったり）、やってみます。まあ、その過学習した状態の方が性能良…

2019-06-22

teratailでのプログラミング初心者の質問の仕方

雑記プログラミング雑記

はじめに teratailはプログラミングで生じた疑問を投稿すると、他のユーザーに回答してもらえる、便利でプログラミング初心者の方にとってはとても心強い味方になり得るサービスです。一方で、「使い方がわからない」「どんな質問をすればいいの？」「こん…

2019-06-21

技術ブログを書く意味について考えてみる。250記事目なので。

雑記プログラミング雑記ネタ・小ネタブログ運営

はじめに当ブログが250記事に達したので、振り返りを書こうと思いました。といっても別に書くこともそれほどないので、ついでにこれから技術ブログを書こうと思っている人向けに、「なんのために書くのか」「書く意味あるのか」みたいなふわふわした話につ…

静かなる名辞

pythonとプログラミングのこと

2019-06-01から1ヶ月間の記事一覧

【python】ロジスティック回帰で確率値で学習させる

scikit-learnのColumnTransformerを使ってみる

AIでプログラマーが失業するとか、気にしなくていいと思うよ

【python】ファイルのwritelinesは行を書いてくれない

多次元尺度構成法（MDS）で文字列の編集距離を可視化してみる

今あえて書く、目的別Pythonを使うメリット・デメリット

決定木をいろいろな方法で可視化する

TypeError: '***' object is not subscriptableの対処法

sklearn.tree.plot_treeをJupyter Notebookで使うと決定木の可視化が捗る・・・かな？　matplotlibでできるよ

はてなブログで自動生成されるゴミページをnoindexにする

ランダムフォレスト回帰で過学習を抑制

sklearnのtrain_test_splitを使うときはstratifyを指定した方が良い

ランダムフォレストはサンプル数が多いとメモリ消費量が大きい

sklearnとmatplotlibでiris（3クラス）の予測確率を可視化した話

ランダムフォレストで分類するときの過学習対策の検討

teratailでのプログラミング初心者の質問の仕方

技術ブログを書く意味について考えてみる。250記事目なので。