multiprocessing.PoolでAttributeError: Can't get attribute '' on <module 'main' from '.py'>みたいなエラー

概要 multiprocessing.Poolで並列化じゃ！と調子に乗ってコードを書いていると表題のようなエラーに遭遇することがあります。再現するコード。poolerrortest.py from multiprocessing import Pool p = Pool(2) def f(x): print(x) p.map(f, [1,2]) # 中略 …

2018-12-28

multiprocessing.Poolがやたらメモリを消費するときの対策

python Tips 雑記 multiprocessing

概要 multiprocessing.Poolは原理的にプロセスをforkさせるので、メインプロセスに大きなデータが残っているとそれが丸々コピーされてメモリ領域を食います。グローバル関数限定ですが、initializerを使って必要ないデータを消すことができます。また、Pool…

2018-12-28

複数のnumpy配列を同時にシリアライズできるnumpy.savezの使い方を解説

python numpy Tips ファイル操作

はじめに numpy.savezは最近使ってみてけっこう良い感じだったのですが、日本語のわかりやすい説明が少なかったので解説記事を書いてみます。なお、以下のドキュメントも併せて参考にしてください。numpy.savez — NumPy v1.15 Manual 基本的な使い方まず、…

2018-12-26

numpy配列の直列化方法によるファイル容量の違いを比較

python numpy Tips ファイル操作速度計測シリーズ

はじめに numpy配列を直列化する方法はいろいろあります。numpyから使える方法に限っても4つあります*1。numpy.savetxt — NumPy v1.15 Manual numpy.save — NumPy v1.15 Manual numpy.savez — NumPy v1.15 Manual numpy.savez_compressed — NumPy v1.15 Manu…

2018-12-26

sklearnのfetch_20newsgroups_vectorizedでベクトル化された20 newsgroupsを試す

python Tips sklearn 20newsgroups 自然言語処理 Pipeline 機械学習 CountVectorizer

はじめに 20 newsgroupsはこのブログでも過去何回か取り上げまたしが、ベクトル化済みのデータを読み込めるfetch_20newsgroups_vectorizedは意図的にスルーしていました。使えるかどうか気になったので、試してみます。sklearn.datasets.fetch_20newsgroups…

2018-12-22

【python】fromでimportしたときの対象モジュールの実行の流れ

python Tips ネタ・小ネタ

ふと「あれ、どうなってるんだっけ」と思うことがあったので実験してみる。import_test.py import time print("aaa") def hoge(): print("hoge") print("bbb") def fuga(): print("fuga") for i in range(1, 4): print(i) time.sleep(1) 普通に実行すると、 …

2018-12-15

【python】numbaを使ってライフゲームを書いてみた

python Tips numba 雑記速度計測シリーズ numpy

概要ライフゲームを書きました。素のpythonだと何をやっても激遅だったので、numbaで高速化しました。方針まず実装の方針を決めます。主要な関数としては以下のものがあればできると思いました。 update_cell 1セルの状態を更新する update_field フィー…

2018-12-14

【python】sklearnのOneClassSVMを使って外れ値検知してみる

python sklearn SVM 機械学習主成分分析

はじめに OneClassSVMというものがあると知ったので使ってみます。「1クラスSVM？」と思われると思いますが、要するに異常検知・外れ値検出などで使う手法です。信頼区間を出すのに似ていますが、複雑な分布だったりそもそも分布が想定できないようなデータ…

2018-12-14

scipy.interpolate.griddataの内挿方法による違いを比較

python scipy matplotlib 統計回帰機械学習可視化

はじめに以前、3次元のサンプルデータを内挿してmatplotlibでうまくプロットする方法について記事にしました。xyzの点データを内挿してmeshgridにしmatplotlibでプロットする - 静かなる名辞この記事では内挿のアルゴリズムをデフォルトのlinearにして使い…

2018-12-12

【python】rangeではin演算子が使える。速度は微妙かも

python Tips ネタ・小ネタ速度計測シリーズ

はじめに今日コードを書いていて、rangeでもinが使えることに気づきました。 >>> 10 in range(20) True ドキュメントを見るとシーケンス型としての機能は一通り備えているようです。 range オブジェクトは collections.abc.Sequence ABC を実装し、包含判定…

2018-12-11

xyzの点データを内挿してmeshgridにしmatplotlibでプロットする

python matplotlib scipy 可視化

はじめに pythonでmatplotlibを使って作図するとき、三次元のデータでpcolormeshとかcontourでやるような等高線プロットを作りたいんだけど、手持ちのデータはxyzが紐付いた点のバラバラな離散データだけ……ということがままあります。散布図ならそれでも良…

2018-12-10

【python】sklearnのFeatureAgglomerationを使ってみる

python sklearn 次元削減機械学習特徴抽出クラスタリング主成分分析データ前処理

はじめに FeatureAgglomerationは階層的クラスタリングを用いた教師なし次元削減のモデルです。特徴量に対して階層的クラスタリングを行い（つまり通常のサンプルに対するクラスタリングと縦横の向きが入れ替わる）、似ている特徴量同士をマージします。マー…

2018-12-06

【python】複数の条件を総なめするときの簡略化

python Tips ネタ・小ネタ

たとえば、こういうものを書きたいとする。 def f(a, b): if a == "0" and b == "0": print("a:0, b:0") elif a == "0" and b == "1": print("a:0, b:1") elif a == "1" and b == "0": print("a:1, b:0") elif a == "1" and b == "1": print("a:1, b:1") 条…

2018-12-04

ImportError: No module named 'sklearn.cross_validation'の対処

python sklearn Tips エラー対処法機械学習

概要 sklearnで書籍やネットに掲載されているコードを実行した結果、表題のようなエラーが出ることがある。一例をあげる。 >>> from sklearn.cross_validation import cross_val_score Traceback (most recent call last): File "<stdin>", line 1, in <module> ImportErro</module></stdin>…

2018-12-02

プログラミングのブログにアドセンスを貼る話

雑記プログラミング雑記ブログ運営

はじめに一ヶ月ほど前から当ブログはGoogle Adsenseを導入しています*1。このブログはいわゆる「技術ブログ」と呼ばれるようなプログラミングのブログですが、プログラミング関連のジャンルでアドセンスを貼った場合の収益性についてはネット上にもあまり…

2018-12-02

【python】sklearnでのカテゴリ変数の取り扱いまとめ　LabelEncoder, OneHotEncoderなど

python Tips sklearn 特徴抽出 Pipeline 機械学習データ前処理

カテゴリデータをone-hot表現として取り扱うという方法は、機械学習などでは一般的に行われます。しかし、sklearnでのサポートが微妙に悪いという問題が長年あり、やれpandasを使えだの、やれサードパーティ製ライブラリで凌げだのといった話題が乱立してい…

2018-12-02

scipyで確率分布のサンプルと確率密度関数を生成する

python Tips scipy numpy matplotlib 統計

scipy.statsでは様々な統計用のユーティリティが提供されています。大抵の分布はあるし、パラメータも好きに設定できます。numpyにも充実したrandomモジュールがありますが、こちらは分布に従うデータの生成や、データのサンプリングなどしかできません。「…

2018-11-30

【python】実行スクリプトからの相対パスでファイルを開く

python ネタ・小ネタファイル操作

pythonのファイルオープンの際のカレントディレクトリは実行時のshellのカレントディレクトリを引き継ぐ仕様なので、スクリプト基準の相対パスだと考えていると悲しい思いをします。そこで、この記事ではその対応策について説明します。

2018-11-17

【python】sklearnのSparsePCAを使ってみる

主成分分析 sklearn python 次元削減機械学習

はじめに SparsePCAというものがあることを知ったので、使ってみようと思います。 SparsePCAとは？その名の通り、スパースな主成分分析です。スパースな主成分ベクトルを推定します。Sparse PCA - Wikipedia 原理などは理解しないで、カジュアルに使えるか…

2018-11-14

【python】sklearnのRFE(Recursive Feature Elimination)を使ってみる

python sklearn Tips 特徴選択機械学習ランダムフォレスト可視化

はじめに RFE(Recursive Feature Elimination)というものがあることを知ったので試してみたいと思いました。 RFEは特徴選択の手法で、その名の通り再帰的にモデルを再構築しながら特徴を選択するという特色があります。sklearn.feature_selection.RFE — scik…

2018-11-12

ループで辞書の要素を削除しようと思ったらRuntimeError: dictionary changed size during iteration

python Tips ネタ・小ネタエラー対処法

前提ループで条件に従って辞書の全要素を舐め、条件が真になる要素を削除したいあくまでもin-placeで処理したい（今回はdel文で書いていた）要するにこんなコード。 d = {v:"hoge!"*v for v in range(5)} # => {0: '', 1: 'hoge!', 2: 'hoge!hoge!', 3: '…

2018-11-11

【python】numpy配列の結合方法まとめ

python numpy Tips

複数のnumpy配列を一つにまとめたいというシチュエーションはよくあると思います。numpyには配列を結合してまとめるための、様々な方法が存在します。この記事では8種類の方法と、それらの使い分けについて紹介します。

2018-11-10

【python】ctypesのcreate_string_buffer()を使ってみる

python ctypes C言語 Tips

はじめに以前の記事で、ctypesでバイト列や文字列を受け渡しする方法について述べました。【python】ctypesでバイト列や文字列を受け渡しする - 静かなる名辞しかし、ctypesに存在しているcreate_string_buffer()と create_unicode_buffer()には触れません…

2018-11-10

【python】sklearnのLDA(LatentDirichletAllocation)を試してみる

python sklearn 20newsgroups 自然言語処理 Pipeline 機械学習ランダムフォレスト CountVectorizer

注意：線形判別分析（LinearDiscriminantAnalysis）ではありません。トピックモデルのLDAです。はじめに LDAといえば、トピックモデルの代表的な手法であり、一昔前の自然言語処理では頻繁に使われていました（最近は分散表現や深層学習に押されて廃れ気味…

2018-11-08

C言語でshellの多段パイプを実装

C言語雑記

はじめに学校の課題でCでshellもどきを書きました。今後、同じ目にあう人のために、「shellの多段パイプをどうやって実装したら良いのか」を記事としてまとめておきます。目次はじめにパイプの概要使用する関数 int pipe(int pipefd[2]) int close(int…

2018-11-07

【python】numpyで多次元配列のargsortと値の取り出し

python numpy Tips

はじめに numpy配列のargsort()メソッドは値をソートした結果のインデックスの配列を返します。 >>> import numpy as np >>> a = np.array([2,0,1,8,1,1,0,7]) # 適当な配列を定義 >>> idx = a.argsort() # argsort >>> idx # こんな配列になる array([1, 6,…

2018-11-06

【python】引数のデフォルト値は定義時評価なので注意

python Tips 初心者向け

はじめに pythonでは関数の引数にデフォルト値を設定することができます。この機能を使うと、引数が与えられなかったときの挙動を定義することができ、とても便利です。 >>> def f(x="hoge"): ... print(x) ... >>> f("aiu") aiu >>> f(x="aiu") aiu >>> f(…

2018-11-05

【python】ctypesでバイト列や文字列を受け渡しする

python ctypes Tips 速度計測シリーズ C言語

はじめに pythonではC言語の動的リンク/共有ライブラリを手軽に扱う方法として、ctypesという標準モジュールが用意されています。ctypes --- Pythonのための外部関数ライブラリ — Python 3.7.4 ドキュメント ctypesを用いて自作したC言語の処理を呼び出すこ…

2018-11-01

pythonのスコープは静的に決まる。だから・・・

python Tips ネタ・小ネタ雑記

概要少し疑問に思うことがあったので、書き留めておきます。目次概要前提確認したかったことと結果まとめ前提まず以下のようなコードについて考えます。 >>> def f(): ... print(a) ... >>> a = "hoge" >>> f() hoge ここでf()の中のprint()でaを参…

2018-10-25

【python】ctypesはmallocをfreeしてくれない

python Tips ctypes C言語

ctypesで呼びだす関数でmalloc()した場合、メモリリークが起きることと、その対策について

静かなる名辞

pythonとプログラミングのこと

2018-01-01から1年間の記事一覧

multiprocessing.PoolでAttributeError: Can't get attribute '' on <module 'main' from '.py'>みたいなエラー

multiprocessing.Poolがやたらメモリを消費するときの対策

複数のnumpy配列を同時にシリアライズできるnumpy.savezの使い方を解説

numpy配列の直列化方法によるファイル容量の違いを比較

sklearnのfetch_20newsgroups_vectorizedでベクトル化された20 newsgroupsを試す

【python】fromでimportしたときの対象モジュールの実行の流れ

【python】numbaを使ってライフゲームを書いてみた

【python】sklearnのOneClassSVMを使って外れ値検知してみる

scipy.interpolate.griddataの内挿方法による違いを比較

【python】rangeではin演算子が使える。速度は微妙かも

xyzの点データを内挿してmeshgridにしmatplotlibでプロットする

【python】sklearnのFeatureAgglomerationを使ってみる

【python】複数の条件を総なめするときの簡略化

ImportError: No module named 'sklearn.cross_validation'の対処

プログラミングのブログにアドセンスを貼る話

【python】sklearnでのカテゴリ変数の取り扱いまとめ　LabelEncoder, OneHotEncoderなど

scipyで確率分布のサンプルと確率密度関数を生成する

【python】実行スクリプトからの相対パスでファイルを開く

【python】sklearnのSparsePCAを使ってみる

【python】sklearnのRFE(Recursive Feature Elimination)を使ってみる

ループで辞書の要素を削除しようと思ったらRuntimeError: dictionary changed size during iteration

【python】numpy配列の結合方法まとめ

【python】ctypesのcreate_string_buffer()を使ってみる

【python】sklearnのLDA(LatentDirichletAllocation)を試してみる

C言語でshellの多段パイプを実装

【python】numpyで多次元配列のargsortと値の取り出し

【python】引数のデフォルト値は定義時評価なので注意

【python】ctypesでバイト列や文字列を受け渡しする

pythonのスコープは静的に決まる。だから・・・

【python】ctypesはmallocをfreeしてくれない