DataFrameをprintしたときヘッダの日本語の列名がずれないようにする

python pandas Tips

日本語の列名のDataFrameを扱うことは、日本人のpandasユーザにとってはありがちな展開だと思うのですが、問題はprintするとヘッダがずれてしまうことです。 >>> import pandas as pd >>> pd.DataFrame({"あああ":[1, 2], "いいい":[3, 4], "ううう":[5, 6],…

2019-12-01

pandasで年月日時刻の列を結合して一列にする（datetime64で）

python pandas Tips

概要ローデータ（生データ）を取り込むと、年月日が独立して入っている感じの嫌なデータになっていることがあります。年,月,日 1996,8,1 1998,12,2 2012,05,3 こういうのは嬉しくないので、できるだけ単一のdatetime風の型に変換しておきたいのですが、意…

2019-08-17

【python】機械学習でpandas.get_dummiesを使ってはいけない

python Tips pandas sklearn 機械学習特徴抽出

「pandasのget_dummiesでダミー変数が作れるぜ」という記事がとてもたくさんあって初心者を混乱させているのですが、これは「データ分析」には使えても「機械学習」には向きません。もう少し正確に言い換えると「訓練データからモデルを作り、未知のデータの…

2019-07-18

pythonで相関係数を計算する方法いろいろ3種類

python Tips numpy scipy pandas 統計

はじめに pythonで相関係数を計算する方法はいろいろあります。確認したら、主要ライブラリだけで3つありました。いろいろあるということは用途によって使い分けられるということなので、淡々と書いていきます。なお、念のために断っておくと、ここで書い…

2019-05-03

【python】pandasのto_sqlを試してみる

python pandas Tips データベース

はじめに気軽にDataFrameをデータベーステーブルに変換できそうなto_sqlなるものがあるので、試してみます。pandas.DataFrame.to_sql — pandas 0.23.4 documentation sqliteを使いたかったドキュメントではSQLAlchemyを使ってSQLiteを叩いているようですが…

2019-03-18

【python】sklearn 0.20でclassification_reportの仕様が変わっていた

python sklearn Tips pandas 機械学習

はじめに遅まきながら、sklearn 0.20でclassification_reportの仕様が変わったことに気づきました。基本的な使い方は変わりませんが、それなりに大きな変化になります。変更点まず0.19の引数と出力のフォーマット。 sklearn.metrics.classification_repo…

2019-03-15

numpyやpandasでThe truth value of ... is ambiguous.のようなエラーが出たときの対処

python numpy pandas Tips エラー対処法

numpyやpandasでThe truth value of ... is ambiguous.のようなエラーが出たときの対処条件式を使って生成したようなboolのnumpy配列を使っていると、次のようなエラーが出ることがあります。また、pandasのSeriesやDataFrameでも同様のエラーが発生する場…

2018-09-05

【python】pandasのgroupbyで結果をlistにする

python pandas Tips

pandasのgroupbyを使って、平均や標準偏差を計算する方法は検索するとすぐ出てきます。ただ、「そういうの良いから、項目ごとに使いやすいイテレータにしてまとめてくれよ！」と思うときがありますよね。 >>> import pandas as pd >>> df = pd.DataFrame({"…

2018-06-13

【python】sklearnのVarianceThresholdを試してみる

python sklearn Tips 20newsgroups CountVectorizer Pipeline pandas 特徴選択特徴抽出機械学習データ前処理

はじめに VarianceThresholdは名前の通り、分散がしきい値以下の特徴量を捨てます。sklearn.feature_selection.VarianceThreshold — scikit-learn 0.20.2 documentation これといってすごいところはありませんが、気楽に使えそうなので試してみました。目次…

2018-05-31

【python】pandasのDataFrameをLaTeX出力

python pandas Tips

そんな機能があるらしい。DataFrame.to_latex()という名前のメソッドである。pandas.DataFrame.to_latex — pandas 0.21.1 documentation これが使えると何かの役に立つかもしれないので、使い物になるかどうか確認してみる。お試しとりあえず、てきとーにd…

2018-04-24

【python】pandasでデータを標準得点（z得点）に変換

python pandas scipy

データの正規化（標準化）をpandasでもやってみる。正規化、標準化とは、データを分散1、平均0に変換する操作である。スポンサーリンク (adsbygoogle = window.adsbygoogle || []).push({}); 自分で書いてもできるが、scipyの関数を使うと簡単にできる。 >>…

2018-04-24

【python】pandasでDataFrameの平均と標準偏差を計算する方法

python pandas Tips

概要 DataFrameから平均と標準偏差を計算する方法をメモしておきます。目次概要列の平均と標準偏差を計算したい行の平均と標準偏差を計算したい特定の列・行だけ取り出してから計算する describeメソッドで全体の雰囲気を掴む列の平均と標準偏差を計算…

2018-03-15

【python】クラスタリング結果を積み上げ棒グラフで可視化する

python pandas matplotlib クラスタリング Tips 機械学習可視化

ラベル付きデータをクラスタリングすることがよくあります（そんな頻繁にあるか？まあ、クラスタリングの使い方次第でたまにはあるからこうして記事にしている訳ですが）。各クラスタの中身がどんなラベルで構成されているのか、知りたくなります。積み上げ…

静かなる名辞

pythonとプログラミングのこと

pandas

DataFrameをprintしたときヘッダの日本語の列名がずれないようにする

pandasで年月日時刻の列を結合して一列にする（datetime64で）

【python】機械学習でpandas.get_dummiesを使ってはいけない

pythonで相関係数を計算する方法いろいろ3種類

【python】pandasのto_sqlを試してみる

【python】sklearn 0.20でclassification_reportの仕様が変わっていた

numpyやpandasでThe truth value of ... is ambiguous.のようなエラーが出たときの対処

【python】pandasのgroupbyで結果をlistにする

【python】sklearnのVarianceThresholdを試してみる

【python】pandasのDataFrameをLaTeX出力

【python】pandasでデータを標準得点（z得点）に変換

【python】pandasでDataFrameの平均と標準偏差を計算する方法

【python】クラスタリング結果を積み上げ棒グラフで可視化する