オンライン講座の動画観てたら、英語の学習レベルが低すぎて真剣にやらないとまずいな...と。
これはいかんということで、オンライン講座の動画と対になっている字幕の英語テキストデータから頻度順に英単語並べたりして、学習しようと思ってる。
そのために、NLTKの環境がほしい。できれば仮想環境で。いま流行ってるvagrant使ったことなかったのでついでに学習。
環境構築
vagrant
初めてvagrant使ったのだけど、便利だった。
% sudo gem install vagrant % vagrant box add centos http://developer.nrel.gov/downloads/vagrant-boxes/CentOS-6.3-x86_64-v20130101.box % vagrant init centos % vagrant up
Python環境
CentOS6.4標準バージョンのPython 2.6.6。pipのインストールまでをvagrantにsshでログインしてから。
% vagrant ssh
$ wget http://python-distribute.org/distribute_setup.py $ python distribute_setup.py $ easy_install pip
nltk
nltkはPython.hを始めとしてpython-devel(CentOSだと)に依存しているので、事前にインストールする必要あり。
$ sudo yum install python-devel
$ sudo pip install -U numpy $ sudo pip install -U pyyaml $ sudo pip install -U nltk
コーパス
必要となるかはさておいて、ひとまずダウンロードall。数十分かかるので注意。
>>> import nltk >>> nltk.download() NLTK Downloader --------------------------------------------------------------------------- d) Download l) List u) Update c) Config h) Help q) Quit --------------------------------------------------------------------------- Downloader> Downloader> all
ひとまずこれで最低限の準備は整った。