list, tuple, dict, setの基本的な使い方、相違点、使い分け、応用など

python Tips 初心者向け

pythonでよく使う組み込みのコレクション型には、list, tuple, dict, setなどがあります。ただ、なんとなく使っている、いつもlist、それぞれ微妙に使い勝手が違って困る、という人も多いと思います。そこで、これらについて解説します。

2019-08-02

【python】code.pyも作っちゃだめだよという話

python Tips エラー対処法

概要実行時カレントディレクトリにcode.pyを置いておいたら訳のわからない落ち方をした。現象なんかimportしたらまともに動かなかった。調べると、pytest→pdb→codeという流れでimportして、自作のcode.pyはエラーが出るコードだったのでそこで止まってた…

2019-08-02

【python】標準データ型での二次元配列の表現あれこれのアクセス速度

python 速度計測シリーズ Tips

はじめに俗に言う「二次元配列」をpythonで表現しようとすると、listのlistで書くというのが一番最初に思いつくやり方だと思います。速度のこととか考えるとどうやるのがいいのか？ということは実はあまり知らなかったので、この際いろいろ試してみます。…

2019-07-24

【python】numpyが入ってない標準Pythonでnanをゲットする方法

python Tips ネタ・小ネタ NaN

はじめに nanの値を取得したいときは、普通はnumpyを使うと思います。 >>> import numpy as np >>> np.nan nan まあ、そんなシチュエーションそもそもあまりないという話ですが。じゃあ、numpyがないときは？即答できる人はあまりいないと思います。リテラ…

2019-07-24

【python】bool(nan)とかnanをastype(bool)するとTrueになるので気をつけよう

python numpy Tips ネタ・小ネタ NaN

なんのことなのかタイトルの通りです。 >>> import numpy as np >>> bool(np.nan) True >>> np.array([np.nan]).astype(bool) array([ True]) いやまあ、確かにPythonの言語仕様上そうなんですが、釈然としない気も・・・なんで困るのか 0かそれ以外かをそ…

2019-07-22

【python】sklearnでQuadraticDiscriminantAnalysis（二次判別分析）を試す

python 機械学習 sklearn

はじめに線形判別分析は非線形な分布に対応できないのでだいたいイマイチなパフォーマンスになるのですが、QDA（二次判別分析）だと若干緩和されます。二次判別分析はその名の通り分離境界が二次関数になります。ということは、非線形性はありますが、大し…

2019-07-21

TypeError: list indices must be integers or slices, not ***等の原因と対処法

python Tips エラー対処法初心者向け

はじめに pythonを触り始めたばかりの人は、よくこんなエラーに遭遇すると思います。 TypeError: list indices must be integers or slices, not *** ***の部分はfloatだったりlistだったりstrだったりといろいろありますが、とにかくこんなエラーです。ま…

2019-07-21

sklearnで正則化回帰（Ridge, Lasso, ElasticNet）するときはCV付きのモデルがいいよ

python 機械学習回帰 Tips Pipeline 速度計測シリーズ

はじめに正則化回帰は割と定番のモデルなのですが、sklearnのAPIリファレンスをよく見ると、CVが末尾についたモデルがあることがわかります。 Lasso→LassoCV Ridge→RidgeCV ElasticNet→ElasticNetCV API Reference — scikit-learn 0.21.2 documentation な…

2019-07-21

【python】相関係数行列をstatsmodelsを使って描く

python statsmodels 可視化統計 Tips

はじめに相関係数行列を描く方法としては、pandasとseabornを使う方法などが一般的です。しかし、statsmodelsで行う方法も実は存在します。pandas+seabornでやる場合 import numpy as np import pandas as pd import matplotlib.pyplot as plt import seabo…

2019-07-18

ブログで直帰率が高いことは問題ではない。満足して帰っていれば

雑記ブログ運営

はじめにブログをある程度真面目に運営している人は、googleアナリティクスなんかを入れて色々な指標を日々確認していると思います。指標が悪いと、なんか問題があるのではないかと思いがちです。当ブログは直帰率が高いです。8割以上といったところです。…

2019-07-18

pythonで相関係数を計算する方法いろいろ3種類

python Tips numpy scipy pandas 統計

はじめに pythonで相関係数を計算する方法はいろいろあります。確認したら、主要ライブラリだけで3つありました。いろいろあるということは用途によって使い分けられるということなので、淡々と書いていきます。なお、念のために断っておくと、ここで書い…

2019-07-16

Pythonプロセスの自分自身のメモリ使用量を調べる

python Tips

簡単なテストや処理をしているとき、Pythonプロセス自身のメモリ消費量を計算したくなるときがある。やり方を知らなかったけど、頑張って検索したら出てきたのでメモ。 import os import psutil process = psutil.Process(os.getpid()) print(process.memory…

2019-07-16

nltkでテキストを文・センテンス単位で分割する

python nltk 自然言語処理 Tips

概要自然言語処理やテキストマイニングをしていると文単位で処理・分析したいということはたまにあるので、テキスト（複数文）→センテンス（単一の文）という変換をしたくなることがあります。英語の場合は、nltkを使うと簡単です。 nltk.sent_tokenizeで…

2019-07-16

指数関数を二次多項式で近似してみる

python scipy プログラミング雑記

はじめに指数関数って右半分の形だけなら、二次関数になんとなく似ていますよね。二次多項式を持ってくれば近似的にできそうな気ができるので、やってみましょう。とはだいたい同じようなものじゃないの？という話です。プログラム pythonのscipyを使い…

2019-07-15

記事の寿命から考える、1記事で1日に得るべきPVとブログの収益性

雑記ブログ運営

はじめに当ブログは見ての通りたくさん広告を貼っていますが、こういうことをしていると「どれくらいPVを稼げば、記事を書く労力に対して儲けが割に合うのかなぁ」ということが気になってきます。そこで常日頃から考えていたことを軽く書いておきます。テ…

2019-07-14

numpyでnanを含む配列の同値性をちゃんと計算する

python numpy Tips NaN

はじめに 2つのnumpy配列が同一であるかどうか調べたいシチュエーションは、ままあるでしょう。で、こうする訳です。 >>> import numpy as np >>> a = np.array([1,2,3]) >>> b = np.array([1,2,3]) >>> (a == b).all() True すべての要素同士を比較して、…

2019-07-14

sklearnの変数選択は疎行列型（csr_matrix）でやると速いっぽいよ

python sklearn 特徴選択速度計測シリーズ Tips

はじめに疎行列はメモリ消費こそ少ないものの、scikit-learnで使うと内部でnumpy配列に変換されたりしてあまり恩恵を受けられないことが多いです。でも、変数選択に使うときはどうやら効くっぽいです。関連記事 scikit learnのモデルに疎行列（csr_matrix…

2019-07-14

scikit-learnで目的変数を対数変換したりするTransformedTargetRegressor

python 機械学習統計 sklearn Tips 回帰

はじめに経済系の分析などで、目的変数を対数変換して分析するというケースがあります。scikit-learnはそのようなケースもサポートしています。どうやったらいいのかわからなくて、自分で変数を変換している人も中にはいるかと思いますが、モデル構築まで…

2019-07-14

scikit-learnのPolynomialFeaturesで多項式と交互作用項の特徴量を作る

python sklearn 機械学習 Tips 特徴抽出

はじめに回帰などで非線形の効果を取り扱いたいとき、多項式回帰は定番の方法です。また、交互作用項も使うと有用なときがあります。 pythonユーザはいきなりSVRやランダムフォレスト回帰などの非線形回帰を使うことが多い気もしますが、線形モデルでも特徴…

2019-07-14

ブログのSearch Consoleでの平均CTRや平均掲載順位が下がるのはオッケー。クリック数と表示回数が大切

雑記ブログ運営

はじめに当サイトは見て分かる通りの零細プログラミングブログです。大したアクセスを稼いでいないので、ぶっちゃけPVのこととか気にしても仕方ありません。考える暇があったら記事書いた方が良いというやつですね。が、実を言うと中の人は割と頻繁にアク…

2019-07-12

sklearnのKFoldやStratifiedKFoldでrandom_stateを変えても結果が変わらないとき

python 機械学習 sklearn Tips

はじめに random_stateを設定して「結果を固定したい」ことはよくありますが、「結果を変えたい」ってあんまりないですよね。いろいろな条件下で比較して検定するときくらいでしょうか。それでも、変わるだろうなと思って変えたら変わらなくて困るというパ…

2019-07-08

非線形がなんだ！　ロジスティック回帰＋多項式でやってやる！

python 機械学習 sklearn Tips ロジスティック回帰特徴抽出可視化

はじめにロジスティック回帰はいうまでもなく線形分類器です。なので、非線形の分類問題は本来解けません。ロジスティック回帰が線形分離不可能な分類問題を解けないことの説明 - 静かなる名辞しかし、特徴量を非線形変換したり、交互作用項を入れたりして…

2019-07-08

カーネルPCAで文字列の編集距離を可視化してみる

python sklearn 可視化 Tips 次元削減

はじめに以前に編集距離が計算された文字列間の位置関係をMDSを使ってまったく同じことをしましたが、今度はカーネルPCAでやってみます。違いとしては、MDSは距離行列から計算を行うのに対してカーネルPCAは類似度行列から計算を行えるということがあると…

2019-07-07

scikit-learnのSVMを自分で計算したカーネルで使う

python Tips sklearn 機械学習 SVM

はじめに多くの機械学習手法では入力される特徴量はベクトルで表されますが、ベクトルとして表現するのが難しい情報もあります。そのような場合でも、個体間の類似度さえ計算できれば機械学習を使えるというケースがあります。これが世にいうカーネル法です…

2019-07-07

ロジスティック回帰が線形分離不可能な分類問題を解けないことの説明

統計雑記ロジスティック回帰

はじめにロジスティック回帰が線形分離不可能な分類問題を解けないことは有名な話です。だけど、「いや解けるだろ」「なんで解けないの？？？」と言われてしまうことがあるので*1、それができないことを説明しておこうと思います。なお、この記事はこちら…

2019-07-05

コサイン距離は距離じゃないんだから、勘違いしないでよねっ！

雑記統計ネタ・小ネタ機械学習データ前処理自然言語処理可視化

自然言語処理などでお馴染みのコサイン類似度。これを1から引いたものを「コサイン距離」と称している文献も散見されますが、この「コサイン距離」は距離としての性質を満たしません。それがどういうことなのかをこの記事で説明していきます。

2019-07-03

【python】正規表現モジュールreで行頭・行末にマッチしないときの対処

python Tips 正規表現

概要 pythonの正規表現モジュールreでは、デフォルトでは^は「文字列の先頭」に、$は「文字列の末尾」にマッチします。なので、次のような挙動になります。 >>> s = "hoge\nfuga\n" >>> import re >>> re.findall(r"^[hf]|[ea]$", s) ['h', 'a'] # ['h', 'e…

2019-07-02