NLTKで頻出単語抽出(英単語のみ)まえの環境構築

オンライン講座の動画観てたら、英語の学習レベルが低すぎて真剣にやらないとまずいな...と。

これはいかんということで、オンライン講座の動画と対になっている字幕の英語テキストデータから頻度順に英単語並べたりして、学習しようと思ってる。

そのために、NLTKの環境がほしい。できれば仮想環境で。いま流行ってるvagrant使ったことなかったのでついでに学習。

環境構築

vagrant

初めてvagrant使ったのだけど、便利だった。

% sudo gem install vagrant
% vagrant box add centos http://developer.nrel.gov/downloads/vagrant-boxes/CentOS-6.3-x86_64-v20130101.box
% vagrant init centos
% vagrant up

Python環境

CentOS6.4標準バージョンのPython 2.6.6。pipのインストールまでをvagrantにsshでログインしてから。

% vagrant ssh
$ wget http://python-distribute.org/distribute_setup.py
$ python distribute_setup.py
$ easy_install pip

nltk

nltkはPython.hを始めとしてpython-devel(CentOSだと)に依存しているので、事前にインストールする必要あり。

$ sudo yum install python-devel
$ sudo pip install -U numpy
$ sudo pip install -U pyyaml
$ sudo pip install -U nltk
コーパス

必要となるかはさておいて、ひとまずダウンロードall。数十分かかるので注意。

>>> import nltk
>>> nltk.download()
NLTK Downloader
---------------------------------------------------------------------------
    d) Download   l) List    u) Update   c) Config   h) Help   q) Quit
---------------------------------------------------------------------------
Downloader> 
Downloader> all

ひとまずこれで最低限の準備は整った。