pikesaku’s blog

個人的な勉強メモです。記載内容について一切の責任は持ちません。

Jubatusチュートリアルをやる!

* 参考URL

チュートリアル — Jubatus

チュートリアルプログラムの概要

自然言語の分類をする
・評価用データとしてNews 20を使う
 Home Page for 20 Newsgroups Data Set
・News 20は自然言語分類の評価用データ
 80%が学習用データ
 20%がテスト用データ
・News 20はニュースグループ。20個のグループがあり、色々な人がメッセージを投稿している。
チュートリアルプログラムは、学習用データを読み込んで、テスト用データとしてメッセージを読み込み、どのグループの投稿データかを推測する。
・自分の環境では、正答率は1回目71%、2回目74%、3回目75%、4回目75%、

メモ

・分類機能があるjubaclassifierを利用
・設定ファイルを引数にしてjubaclassifierをjubatusサーバで実行する
・設定ファイルの主な指定項目は以下。
 method アルゴリズムを指定。パーセプトロン
 converter 入力データの特徴ベクトルへの変換方法を指定
 parameter 今回は指定なし
・クライアントが学習用データとテスト用データを投げ込んで、テスト結果を得る
・trainメソッドで学習
・classifyメソッドでテスト