静かなる名辞

pythonとプログラミングのこと


mecab

mecab-pythonで品詞を見るときはfeature.splitしない方が速い

はじめに mecab-pythonで形態素解析を行って何らかの処理をするとき、特定の品詞だけ取り出したいということがよくあります。 そういう目的で書かれたコードとして、よくこんなものを見たりすると思います。 import MeCab tagger = MeCab.Tagger() tagger.pa…

【python】MeCabバインディングのparseToNodeでBOS/EOSを除外

はじめに mecab-pythonで以下のようなコードを書くことがよくあると思います。 import MeCab s = "吾輩は猫である。" tagger = MeCab.Tagger("") tagger.parse("") node = tagger.parseToNode(s) while node: print(node.surface, node.feature) node = node…

MeCab+Pythonでunidicを使う

はじめに MeCabの辞書といえばipadicが定番ですが、unidicという辞書もあります。 ちょっとこれを使いたくなったので、使ってみることにしました。 なお、MeCabおよびmecab-pythonはすでにipadic等で使える状況になっているものとします。 目次 はじめに uni…

【python】sklearnのCountVectorizerの使い方

sklearnのCountVectorizerを使うとBoW(Bag of Words)の特徴量が簡単に作れます。 ただし、指定するパラメタが多かったり、デフォルトで英語の文字列を想定していたりして若干とっつきづらい部分もあります。 この記事ではCountVectorizerの使い方を簡単に説…