データサイエンス入門

演習 I(2020年開講)3年生配当 必修科目

西南学院大学 経済学部 担当 市東亘

シラバス

  1. データサイエンスとは
  2. 講義内容
  3. 受講上の注意
  4. 評価方法
  5. 受講者選考方法
  6. 受講生へのメッセージ

SlideShareに公開されている講義ノートはDownloadボタンからダウンロードできますがユーザ登録が必要です(無料).

リソース

春休みの宿題

タイピング

授業内の限られた時間で円滑なプログラミング作業を行うには,素早いタイピング技術が必須です.春休み中にタッチタイピング(ブラインドタッチ)を習得しておいてください.初回授業でチェックします.

Rの予習(班活動)

講義の発表割り当て

Rによる大規模データ操作

ここでは春休みに学んだRの基礎テクニックを応用して,Excelで扱うには難しい大量のデータを,Rで書いたプログラムから操作・処理する方法を学びます.ただしここでは,ビッグデータと呼ばれるテラバイト級のデータの扱い方は学びません.

今後のプログラミング学習のために

これ以降はいよいよ機械学習を学び始めます.どのような分析をしようとも分析の前には必ずデータの前処理(整形やクリーニング)が必要になります.その際にはプログラミング・スキルが要求されるので事につけRの講義ノートを復習し,更なる習得に努めてください.また,夏休みや冬休みにはプログラミングの書籍を2冊くらい読むように心がけてください.学ぶ言語に関わらずプログラミングのスキルが向上します.

Rの推薦図書

  1. 「RStudioではじめるRプログラミング入門」Garrett Grolemund著,オライリージャパン 2015年.統計分析を扱ったRの入門書が多い中,ちょっとしたゲームを作りながらRによるプログラミングを学べる本です.講義ノートの次に読む本として最適です.
  2. 「アート・オブ・Rプログラミング」Norman Matloff著,オライリージャパン,2012年.入門書を読破し中級Rプログラマーへ歩を進めるにはこの本が良いでしょう.
  3. 「Rプログラミング本格入門: 達人データサイエンティストへの道」Ken Ren著,共立出版,2017年.Rプログラミングの上級の話題だけでなく,講義ノートでは扱わなかった大規模データ用のパッケージも詳しく解説されています.ここまでマスターするとほぼ無敵でしょう.
  4. 「R言語徹底解説」Hadley Wickham著,共立出版,2016年.私が全幅の信頼を置いているR言語のバイブル.原著の "Advanced R" は名著で,R言語の深淵を理解するにはこの本がもっとも良い.ここまでマスターするとR Guruを名乗れます.

教師あり学習アルゴリズム

k-近傍法

ここでは最近傍法の1つk-近傍法を使ったデータ分類アルゴリズムを学びます.

ナイーブ・ベイズ

スパムフィルタなどで活躍する単純ベイズ法を使った分類アルゴリズムを学びます.講義までに講義ノートの練習問題1と2を解いてきてください.

決定木と分類ルール

決定木と分類ルールと呼ばれる学習アルゴリズムを使った分類アルゴリズムを学びます.

回帰法による数値予測

ニューラルネットワークとサポートベクトルマシン

教師なし学習アルゴリズム

メタ学習アルゴリズム