【python】hyを触ってみる

python hy lisp 機械学習

なんか、たまにlisp使ってみたくなるんだよね。去年のこれくらいの時期にもcommon lispをやってみた記憶があるが、たぶん言語として悪くはないんだろうけど、ちゃんと書けるようになる前に飽きてしまった*1。という訳で、今回はpython方言（lisp方言と言う…

2018-02-25

【python】分数の文字列をfloatに変換する

python Tips

入力データに文字列の分数がやってきたとき、floatに変換したい・・・という気持ちになることがある目次 Fractionクラスを使う自分でやる evalするできないやり方まとめ Fractionクラスを使う王道。というか実質的にこれ以外ないと思う。 >>> from frac…

2018-02-25

【python】sklearnのCountVectorizerの使い方

python sklearn 自然言語処理 mecab CountVectorizer TfidfVectorizer 特徴抽出 tf-idf 機械学習

sklearnのCountVectorizerを使うとBoW(Bag of Words)の特徴量が簡単に作れます。ただし、指定するパラメタが多かったり、デフォルトで英語の文字列を想定していたりして若干とっつきづらい部分もあります。この記事ではCountVectorizerの使い方を簡単に説…

2018-02-22

【python】sklearnのPipelineを使うとできること

python sklearn Tips Pipeline 機械学習特徴抽出 SVM ランダムフォレスト主成分分析

機械学習では、何段もの前処理をしてから最終的な分類や回帰のアルゴリズムに入力するということがよくあります。前処理にはけっこう泥臭い処理も多く、leakageの問題なども絡んできます。はっきり言って自分で書こうとすると面倒くさいです。こういう問題…

2018-02-22

【python】sklearnのfetch_20newsgroupsで文書分類を試す(3)

python sklearn 自然言語処理 20newsgroups 機械学習ランダムフォレスト CountVectorizer

前回はとりあえずベースラインの分類を行い、F1値にして0.7くらいの性能を得た。ここで自然言語処理的なアプローチで手法の改良に進むのもありだと思うが、とりあえずmin_dfをパラメタチューニングしてみるか、という方向に傾いている。前回は恣意的に決め…

2018-02-22

【python】numpyで行ごと・列ごとに計算

python numpy Tips

行ごと、列ごとに一括で加減乗除する方法をずっと探していた。こう書くとなんじゃそりゃと思われるかもしれないが、n行m列の行列に対してn次元の縦ベクトルを持ってきて、まとめて計算する感じ。ずっとやり方がわからなかったのだが、このほど試してみたら…

2018-02-21

【python】The Anti-Zen of Pythonの和訳

python ネタ・小ネタ

The Anti-Zen of Pythonというネタがある。そもそも「The Zen of Python」というpython使いの過半数が知っているネタがあるのだが、それに反対する怪文書である。Welcome to that’s documentation! — that 1.0.7 documentation the zen of pythonはデフォル…

2018-02-21

【python】lxml.etreeの使い方まとめ―pythonによるXML処理

python Tips

lxmlを使ってXMLを生成したり、パースしたりするという処理をたまに書く。そんなに頻繁にやる訳ではないので、処理の書き方を忘れてしまいがち。備忘録として書いておく。なお、htmlは今回扱わないので、別のサイトを見てください。目次 installとimport …

2018-02-20

【python】sklearnのfetch_20newsgroupsで文書分類を試す(2)

python sklearn 自然言語処理 20newsgroups 機械学習ランダムフォレスト CountVectorizer

前回の続きをやっていく。とりあえず今回は簡単な方法で分類してみて、ベースラインを作ることにする。目次特徴を捨てる分類するまとめ次回何はともあれ、文書から特徴抽出してベクトル化しないと話にならない。ベースラインなのでBag of Wordsを使う…

2018-02-19

【python】sklearnのfetch_20newsgroupsで文書分類を試す(1)

python sklearn 自然言語処理 20newsgroups 機械学習

fetch_20newsgroupsはUsenetというネットニュースの記事（でいいのかな、良くない気がする）をカテゴリ別に集めたデータセット。sklearnで気楽に使えるので*1、試してみることにする。とりあえずこの記事はintroductionとし、使い方とデータの扱い方の説明…

2018-02-19

【python】CKY法をpythonで実装

python 自然言語処理構文解析

構文解析アルゴリズムのCKY法の実装について説明する。参考にしたテキストはこれ。自然言語処理の基礎作者: 奥村学出版社/メーカー: コロナ社発売日: 2010/10/15メディア: 単行本（ソフトカバー）購入: 8人クリック: 379回この商品を含むブログ (11件) を見…

2018-02-17

【python】スタッキング（stacking）分類器を実装して理解する

python numpy 機械学習 sklearn SVM ランダムフォレスト

最終更新：2018-04-02 はじめにスタッキング（stacking）といえば、複数の分類器を組み合わせて強い分類器を作る系の手法である。単なるvotingやsoft votingより強い。誤解を恐れずにざっくり言ってしまうと、分類器の出力（複数）と真の出力の関係を機械…

2018-02-16

【python】sklearnのVotingClassifierを試す

python sklearn 機械学習 SVM ランダムフォレスト

複数の分類器に分類を行わせ、その結果を平均した結果を得ればより正しい結果が得られるだろう・・・ということらしい。sklearn.ensemble.VotingClassifier — scikit-learn 0.20.1 documentation 先に結論を書いておくと、何種類かの分類器を入れてsklearnの…

2018-02-16