pikesaku’s blog

個人的な勉強メモです。記載内容について一切の責任は持ちません。

機械学習関係の勉強会メモ①

人工知能キーワード

 
f:id:pikesaku:20170723123119p:plain
 
機械学習=Deep Learningではない。
人工知能の明確な定義はなし。言ったもん勝ち
 

機械学習イメージ

f:id:pikesaku:20170723112242p:plain
 

機械学習で必要な数学を学ぶためのオススメ参考書

 
http://www.mathema.jp/books/zemi_math.html
微分積分キャンパス・ゼミ
線形代数キャンパス・ゼミ
統計学キャンパス・ゼミ
 

機械学習で利用される数学アルゴリズムには2つの流派があり

 

流派 難易度 抽象度
線形代数ベース 比較的具体的 SVM, DeepLearning, 重回帰分析
確率統計ベース MCMC, HMM, ベイズ統計(超難)

 
どちらでも、基本的に同じことが実現できる。
違いは確率統計ベースの方が、不確実性まで予測できる点
例) 家賃予測の場合
線形代数ベース→〜万
線形代数ベース→〜%の確率で〜万
 
機械学習は学習で挫折しない為に、まず線形代数ベースから取り組むべき。
機械学習で必要な数学知識を身につけるには、以下セミナーが有用
www.kikagaku.co.jp
 

機械学習における予測の考え方

 
f:id:pikesaku:20170723114643p:plain
 
上記のデータが学習済みの場合、、、
3が入力された場合の予測を内挿
5が入力された場合の予測を外挿
 
と言う。機械学習の予測は、基本的に内挿で行うべき。
外挿は予測結果が精度は低くなる。
 
基本的には与えたデータの範囲で予測すべき
 

学習データに異常データがあった場合の対処

除外する
他データの平均値で補完
 

機械学習の現状

 
経験則&勘で行われている。
何故、この方法がいいかは?は解明されないケースが多い。
実際にデータを学習し結果を見る必要があり。
 

Deep Learning(以降DLと記載)と、それ以外の機械学習の違い

 
f:id:pikesaku:20170723120313p:plain
 
DLは特徴量も自動抽出するのが特徴。
必ずしも、DLを採用すべきではない。扱うデータにより採用すべきアルゴリズムは変わる。
 
例)画像認識の場合
従来は、グレースケール処理(モノクロ変換)等、特徴量抽出の為の操作が必要であったが、DLの場合は、これらが不要
 

機械学習カテゴリ

 

教師あり 入力と答えのセットで学習
教師なし クラスタリング(顧客データの属性分け)、次元削減(大量データから密度の高い部分のみ抽出・主成分分析とも言う)
強化学習 思考錯誤を通じ、「価値を最大化するような行動」を学習。例)ルンバ

 
強化学習=DLではない。
強化学習については以下書籍に良い解説あり。
https://www.amazon.co.jp/実装-ディープラーニング-藤田一弥/dp/4274219992
 

データサイエンスとデータエンジニアリングの違い

 
データサイエンス→研究・数学
データエンジニアリング→プログラミング 
 

今オススメのDeep Learningフレームワークは?

  
Chainner or Tensor Flow
 
Chainnerは少し難しいことやろうとすると数学知識や深い知識が必要になる&技術情報は英語を読む必要あり。
Tensor Flowはネットに技術情報が多くある。今最も主流。
 
Tensor Flowをやるのが無難そう。
Chainnerを理解してれば、Tensor Flowへの転向は容易。