演習 II(2019年開講)4年生配当 選択必修科目
西南学院大学 経済学部 担当 市東亘
講義は2チームに分かれ,ベイズ推論のテキストと機械学習のテキストを交互に発表していきます.使用言語はPythonですが,Rでの分析方法についても解説します.SlideShareに公開されている講義ノートはDownloadボタンからダウンロードできます.
開発環境の構築は『scikit-learnとTensorFlowによる実践機械学習』のp.40--43を参照してください.
テキストp.30には訓練データ80%,テストデータ20%に分けるとあるが,学習器の訓練中(アルゴリズムやハイパーパラメータの選定)のモデル評価に使うデータと,最終的な予測性能の見積もりに使うデータは分けるのが望ましい.一般には,学習器の訓練中に使う「訓練データセット」と,訓練中のモデル改善評価に使う「検査データセット」,最後に1回だけ行うモデル性能評価に使う「テストデータセット」の3つに分割する.その割合は順に,50%,25%,25%に分割するのが一般的.