静かなる名辞

pythonとプログラミングのこと


2017-02-01から1ヶ月間の記事一覧

【python】pca、mds、nmds、tsneとmatplotlibでデータの可視化をしてみる

タイトルの通りのことをする。データセットはirisとdigitsを使ってみる。 ソースコード。 # coding: UTF-8 from sklearn.datasets import load_digits, load_iris from sklearn.manifold import MDS, TSNE from sklearn.decomposition import PCA from matpl…

【python】sqlite3に任意のpythonオブジェクトを突っ込む

データベースにpythonオブジェクトをinsertしておいて、必要になったときにselectして取り出せたら便利だよね。sqlite3のドキュメントを見ると、一応やり方自体は書いてある。12.6. sqlite3 — SQLite データベースに対する DB-API 2.0 インタフェース — Pyth…

【python】pythonでzipしたものを元に戻す(unzipする)

pythonでゴリゴリ処理を書いていると、「とりあえずzipでまとめといて後からほぐす」的な処理をうっかり書いてしまうことがある(本当にそのデータフローが最適なの? という疑問は常にあるのだけど、ループ処理の都合でその方が書きやすかったりすると特に…

【python】pickleの速度を見る

pickleが遅くて困った経験、ありませんか? 私はありませんが、実際問題としてpickleの速度ってちょっと気になりますよね。 という訳で、測ってみました。 # coding: UTF-8 import sys import pickle import time import numpy as np for obj_size in [10,50…

【python】numpyの型の違いによる計算速度差を見てみる

はじめに 前回の記事で「なんとなくnp.float32が速い気がする」とか書いたので、実際に測ってみる。 予め断っておくと、計算速度なんて環境によって違うし、どの型が速いかもCPUのアーキテクチャに依存する。numpyはバリバリにSIMD命令を使って最適化する(…

【python】pythonでメモリ不足になったときにすること

pythonはLLですが、なぜかメモリを何十GBも消費するような(一般的なPCのリソースからすれば)大規模なデータ分析に広く使われています。このようなデータ分析では、往々にしてメモリ不足が生じ、それなりに配慮してプログラムを書かないとそもそもプログラ…

【python】pythonでn-gramの特徴量を作る

○○ってパッケージでできるよ! という意見もあると思いますが、ちょっと挙動を変えたくなる度にパッケージのhelp読んだり、微妙に柔軟性のないパッケージに苦しむ(たとえば文末の句点と次の文の最初の文字は繋げないで欲しいのにできない、とか)くらいなら…