numbaとnumpy.emptyでbool配列が作れないとき

タイトル通りのことをやろうとして、なんかエラーになったんですよね。 import numpy as np from numba import jit @jit("b1[:]()", nopython=True) def f(): a = np.empty(100, np.bool) return a f() 動きそうに見えますが、 Traceback (most recent call …

2020-05-01

concurrent.futuresはなかなか便利かもしれない

python Tips multiprocessing threading

概要「いまさら？」と思われるかもしれませんが、concurrent.futuresを使う機会があり、けっこう幸せでした。本当に「いまさら？」なのですが、どういうとき便利でどういう風に使えるのか書いておきます。リファレンス concurrent.futures -- 並列タスク…

2020-04-28

ThreadPoolExecutorのinitializerについて調べたのでメモ

python Tips threading

概要 ThreadPoolExecutorにはinitializerという便利そうなオプションがあります。でもリファレンスの説明があっさりしていて、挙動がよくわからなかったので調べました。先に断っておくと、このオプションはPython3.7で追加されたもので、それ以前のバージ…

2020-04-26

Pythonで遅いサブプロセスをスレッド並列でたくさん叩く

python Tips threading

概要いつ使うんだと言われてしまうPythonのスレッドですが、Pythonの外で遅い原因があるときは高速化に威力を発揮します。たとえばこんな感じです。言語はbashです。 #!/bin/bash sleep 3 echo "hoge" 特にひねりはありません。slow_command.shとでもして…

2020-04-24

Pythonの文字列は同じ長さでもメモリ消費量が違うときがある

python ネタ・小ネタ

概要 Pythonの文字列は、内容によって一文字の幅が違います。なお、Python3のstrを前提にさせてください。実験 sys.getsizeofで測ってみます。これを使うのはちょっと議論の余地がありますが、 object のサイズをバイト数で返します。object は任意の型の…

2020-04-21

Pythonの文字列メソッドとバイト列の微妙な関係

python Tips エラー対処法

Python3になってからは普段あまり気にしなくても良いようになりましたが、Pythonの文字列っぽい型にはstrとbytesがあります*1。そして、strもbytesも同じようなメソッドを実装してくれています。組み込み型 — Python 3.8.2 ドキュメント組み込み型 — Python …

2020-04-10

DataFrameをprintしたときヘッダの日本語の列名がずれないようにする

python pandas Tips

日本語の列名のDataFrameを扱うことは、日本人のpandasユーザにとってはありがちな展開だと思うのですが、問題はprintするとヘッダがずれてしまうことです。 >>> import pandas as pd >>> pd.DataFrame({"あああ":[1, 2], "いいい":[3, 4], "ううう":[5, 6],…

2020-04-09

numbaとnumpyで速いループ処理を書くためのガイド（スレッド並列化のおまけつき）（実はポエム）

python Tips numpy numba ネタ・小ネタ速度計測シリーズ threading

はじめにこの記事は「Pythonおっせーよ」と思っている、そこのあなたのためのものです。 PythonはLLなので遅いです。その分、楽に書けるし、動的型付けでダイナミックなことができて「楽しぃぃいい」のですが、それでも遅くて困るときがあります。特に数値…

2020-02-08

scikit-learnのStandardScalerで疎行列型のまま標準化する

python scipy 機械学習 Tips

ことのあらましデータの標準化は機械学習の前処理としてとても重要です。そして疎行列型データ構造は、スパースなデータを表現するためにはとても適しています。残念ながら、普通に疎行列型を標準化しようとすると、疎行列性が失せます。考えてみればわか…

2020-02-04

【python】zipを使ってn-gram列を生成する

python Tips ネタ・小ネタ

はじめに n-gramは自然言語処理でよく使われる方法です。n-gram - Wikipedia さて、以下のような関数を作りたいとします。 n_gram("abcde", n=2, sep="-") # ["a-b", "b-c", "c-d", "d-e"] n=2ならbigram, n=3ならtrigramという言い方があります。さて、たと…

2019-12-15

sklearnで混同行列をヒートマップにして描画するplot_confusion_matrix

python sklearn Tips

はじめに scikit-learnのv0.22で、混同行列をプロットするための便利関数であるsklearn.metrics.plot_confusion_matrixが追加されました。使いやすそうなので試してみます。使い方リファレンスはこちらです。sklearn.metrics.plot_confusion_matrix — sci…

2019-12-01

pandasで年月日時刻の列を結合して一列にする（datetime64で）

python pandas Tips

概要ローデータ（生データ）を取り込むと、年月日が独立して入っている感じの嫌なデータになっていることがあります。年,月,日 1996,8,1 1998,12,2 2012,05,3 こういうのは嬉しくないので、できるだけ単一のdatetime風の型に変換しておきたいのですが、意…

2019-11-19

【python】UnboundLocalErrorの原因と対処法

python エラー対処法 Tips

はじめに関数の中で関数の外の変数を操作するようなコードを書いていると、たまに下記のようなエラーが出ます。UnboundLocalError: local variable '***' referenced before assignment 初歩的ですが、意外とまとまった良い解説がないので、記事にしておき…

2019-11-18

scikit-learnで重み付きk近傍法（Weighted kNN）を試してみる

python 機械学習 sklearn Tips

はじめに k近傍法には、近傍点の重み付けをどうするかで複数のやり方が考えられます。普通のk近傍点では予測対象の点のkつの近傍点を取ってきて、そのクラスを単純に多数決します。一方で、より近い点にはより大きい重みを持たせるという発想もまた自然です…

2019-11-17

【python】キーワード引数と可変長キーワード引数（kwargs）の競合によるエラー

python Tips ネタ・小ネタエラー対処法

はじめに既存の関数のwrapperを作るときなど、可変長キーワード引数を使いたいときがあります。これは通常のキーワード引数と併用できますが、稀に問題になることがあります。関数定義のとき定義するときは割と単純で、問題も少ないです。以下のような…

2019-11-15

【python】seabornで棒グラフを信頼区間付きで描く

python matplotlib seaborn 可視化 Tips

はじめに信頼区間付きの棒グラフはよく見かけます。複数グループの差が優位かどうかという議論に向いているからです。他のツールだと割と簡単に描けるグラフだったりするのですが、Pythonでやろうとするとmatplotlibは勝手に信頼区間を計算してくれません…

2019-11-08

Python対話的インタプリタでアンダースコアが便利（誰も知らない機能）

python Tips ネタ・小ネタ

概要対話モードだとアンダースコアの変数が自動的にできています。最後に評価した結果が入るようです。 >>> 1 + 2 3 >>> _ 3 これはチュートリアルに書いてあったのですが、他の入門記事で触れられているのを見た記憶はまったくありません。私自身も、チュ…

2019-11-08

【python】seabornで折れ線グラフを信頼区間付きで描く

python matplotlib 可視化 Tips seaborn

はじめに信頼区間というとなんとなく棒グラフにつけるものという印象がありますが、折れ線グラフでも計算すること自体はたやすくて、しかもけっこうかっこいいグラフになります。大抵は別に無くても良いのですが、たまに信頼区間が出ていると便利なときが…

2019-11-07

ランダムフォレストを使うなら変数選択はしなくてもいいのか？

python 機械学習 sklearn ランダムフォレスト特徴抽出特徴選択

はじめに表題の通りの話をたまに聞きます。「ランダムフォレストは内部で変数選択を行う。なので変数選択は必要ない」という主張です。しかし個人的には、それはあくまでも他の手法*1と比べれば変数選択しなかった場合の悪影響が少ないということであっ…

2019-11-05

【python】sklearnのIterativeImputerで欠損値補完

python sklearn 機械学習 Tips

注意：IterativeImputerは本記事の執筆時点（2019年11月）で実験的な実装とされており、最新の仕様等はこの記事の内容と異なる可能性があります。常にstable版の公式のドキュメントを確認してください。公式のドキュメント sklearn.impute.IterativeImputer…

2019-10-13

【python】sklearnのSimpleImputerで欠損値補完をしてみる

python sklearn Tips 機械学習 NaN

はじめに欠損値補完（nanの処理）はだいたいpandasでやる人が多いですが、最近のscikit-learnはこの辺りの前処理に対するサポートも充実してきているので、平均値で補完する程度であればかえってscikit-learnでやった方が楽かもしれません。ということで、…

2019-10-09

mecab-pythonで品詞を見るときはfeature.splitしない方が速い

python mecab 自然言語処理速度計測シリーズ

はじめに mecab-pythonで形態素解析を行って何らかの処理をするとき、特定の品詞だけ取り出したいということがよくあります。そういう目的で書かれたコードとして、よくこんなものを見たりすると思います。 import MeCab tagger = MeCab.Tagger() tagger.pa…

2019-10-07

【python】matplotlibのboxplotで外れ値を表示しないようにする

python matplotlib Tips 可視化統計

はじめに matplotlibのboxplotを使うと簡単に箱ひげ図が描けます。ただし、デフォルト設定では外れ値が黒い円で表示されます。どんなデータでも、サンプル数が多いと一定数の外れ値は出てしまいます。ただ、図を見る人は気にするところですし、外れ値がたく…

2019-09-01

matplotlibで図全体にタイトルを付けるにはsuptitleを使う

python matplotlib Tips

はじめに matplotlibではよく一つの図の中に複数のグラフを描きます。そうすると全体に共通してタイトルを付けたくなるのですが、普通にやろうとしても個別のAxesに対して呼んでしまいがちです。図全体に対してタイトルを付けるには、suptitleを使います。m…

2019-08-29

matplotlibでAxesを真っ白にする（x軸とかy軸なんかを消して非表示にする）

python matplotlib Tips

matplotlibでAxesを真っ白にする（x軸とかy軸とか目盛りなんかを消して非表示にする） matplotlibでsubplotsを使って適当にグラフを並べるのはよくある処理だと思います。しかし、きれいに長方形で配置できないときもあります。タイル状に作るので、場合によ…

2019-08-17

【python】機械学習でpandas.get_dummiesを使ってはいけない

python Tips pandas sklearn 機械学習特徴抽出

「pandasのget_dummiesでダミー変数が作れるぜ」という記事がとてもたくさんあって初心者を混乱させているのですが、これは「データ分析」には使えても「機械学習」には向きません。もう少し正確に言い換えると「訓練データからモデルを作り、未知のデータの…

2019-08-15

【python】クラスを関数として使う

python Tips ネタ・小ネタ

はじめにクラスはcallされたら自分のクラスのインスタンスを返さないといけないと思っていませんか？一般論としてはその通りなのですが、Pythonではそうしないメカニズムも用意されています。 __new__を使えば割となんでもできます。もっとも、実用的な用…

2019-08-14

【python】scikit-learnで大規模疎行列を扱うときのTips

python sklearn Tips 自然言語処理 20newsgroups 特徴抽出特徴選択次元削減機械学習

はじめに自然言語処理などで大規模疎行列を扱うことがあります。一昔前はNLPといえばこれでした（最近は低次元密行列で表現することのほうが多いですが）。疎行列はその特性をうまく生かして扱うとパフォーマンス上のメリットが得られる反面、うかつにdens…

2019-08-09

【python】itertools.chainを使って複数のiterableを一つにまとめる

python Tips itertools 速度計測シリーズ

概要複数のiterable（リストとか）を結合させてループさせたいときがあります。 >>> lst1 = [1, 2, 3] >>> lst2 = [4, 5, 6] >>> # 1, 2, 3, 4, 5, 6というループをやりたい連結すればできたりしますが、余計なメモリを確保するのでスマートではないし、パ…

2019-08-09

【python】namedtupleはすごい（きもちわるい）

python Tips collections

namedtupleは存在は知ってたけど、使い方を知ったら「すげえ（きめえ）」という感想にしかならなかったので、記事に書きました。

静かなる名辞

pythonとプログラミングのこと

numbaとnumpy.emptyでbool配列が作れないとき

concurrent.futuresはなかなか便利かもしれない

ThreadPoolExecutorのinitializerについて調べたのでメモ

Pythonで遅いサブプロセスをスレッド並列でたくさん叩く

Pythonの文字列は同じ長さでもメモリ消費量が違うときがある

Pythonの文字列メソッドとバイト列の微妙な関係

DataFrameをprintしたときヘッダの日本語の列名がずれないようにする

numbaとnumpyで速いループ処理を書くためのガイド（スレッド並列化のおまけつき）（実はポエム）

scikit-learnのStandardScalerで疎行列型のまま標準化する

【python】zipを使ってn-gram列を生成する

sklearnで混同行列をヒートマップにして描画するplot_confusion_matrix

pandasで年月日時刻の列を結合して一列にする（datetime64で）

【python】UnboundLocalErrorの原因と対処法

scikit-learnで重み付きk近傍法（Weighted kNN）を試してみる

【python】キーワード引数と可変長キーワード引数（kwargs）の競合によるエラー

【python】seabornで棒グラフを信頼区間付きで描く

Python対話的インタプリタでアンダースコアが便利（誰も知らない機能）

【python】seabornで折れ線グラフを信頼区間付きで描く

ランダムフォレストを使うなら変数選択はしなくてもいいのか？

【python】sklearnのIterativeImputerで欠損値補完

【python】sklearnのSimpleImputerで欠損値補完をしてみる

mecab-pythonで品詞を見るときはfeature.splitしない方が速い

【python】matplotlibのboxplotで外れ値を表示しないようにする

matplotlibで図全体にタイトルを付けるにはsuptitleを使う

matplotlibでAxesを真っ白にする（x軸とかy軸なんかを消して非表示にする）

【python】機械学習でpandas.get_dummiesを使ってはいけない

【python】クラスを関数として使う

【python】scikit-learnで大規模疎行列を扱うときのTips

【python】itertools.chainを使って複数のiterableを一つにまとめる

【python】namedtupleはすごい（きもちわるい）