データサイエンス入門

演習 I(2020年--現在 開講)3年生配当 必修科目

西南学院大学 経済学部 担当 市東亘

シラバス

  1. データサイエンスとは
  2. 講義内容
  3. 受講上の注意
  4. 評価方法
  5. 受講者選考方法
  6. 受講生へのメッセージ

SlideShareに公開されている講義ノートはDownloadボタンからダウンロードできますがユーザ登録が必要です(無料).

リソース

春休みの宿題

タイピング

授業内の限られた時間で円滑なプログラミング作業を行うには,素早いタイピング技術が必須です.春休み中にタッチタイピング(ブラインドタッチ)を習得しておいてください.初回授業でチェックします.

Rの予習(班活動)

講義の発表割り当て

前半講義ではR講義ノートを担当班が解説する形で進みます.担当箇所は下記発表順を参照してください.発表班は少なくとも「チェックリスト」に記載の内容と,練習問題,実習,宿題は全て解説してください.もちろん,講義ノートに記載されていること以上に調べて解説してもらって結構です.講義は進めるだけ進みますので,常に2つ先くらいの班まで発表準備しておいてください.

Rの学習を終えたら機械学習の学習に入ります.機械学習は私が講義し,各単元の終わりに班毎にデータ分析の結果を報告してもらいます.

Rによる大規模データ操作

ここでは春休みに学んだRの基礎テクニックを応用して,Excelで扱うには難しい大量のデータを,Rで書いたプログラムから操作・処理する方法を学びます.ただしここでは,ビッグデータと呼ばれるテラバイト級のデータの扱い方は学びません.

今後のプログラミング学習のために

これ以降はいよいよ機械学習を学び始めます.どのような分析をしようとも分析の前には必ずデータの前処理(整形やクリーニング)が必要になります.その際にはプログラミング・スキルが要求されるので事につけRの講義ノートを復習し,更なる習得に努めてください.また,夏休みや冬休みにはプログラミングの書籍を2冊くらい読むように心がけてください.学ぶ言語に関わらずプログラミングのスキルが向上します.

Rの推薦図書

  1. 「RStudioではじめるRプログラミング入門」Garrett Grolemund著,オライリージャパン 2015年.統計分析を扱ったRの入門書が多い中,ちょっとしたゲームを作りながらRによるプログラミングを学べる本です.講義ノートの次に読む本として最適です.
  2. 「アート・オブ・Rプログラミング」Norman Matloff著,オライリージャパン,2012年.入門書を読破し中級Rプログラマーへ歩を進めるにはこの本が良いでしょう.
  3. 「Rプログラミング本格入門: 達人データサイエンティストへの道」Ken Ren著,共立出版,2017年.Rプログラミングの上級の話題だけでなく,講義ノートでは扱わなかった大規模データ用のパッケージも詳しく解説されています.ここまでマスターするとほぼ無敵でしょう.
  4. 「R for Data Science」Hadley Wickham & Garrett Grolemund.オライリーから出版されている書籍の最新更新版.オンラインで無料で読めます.この本も大規模データ用のパッケージの解説があり,さらに上級のデータ分析を行うには一度は読んでおいた方が良い本です.日本語版書籍(2017年)もあります.
  5. 「R言語徹底解説」Hadley Wickham著,共立出版,2016年.私が全幅の信頼を置いているR言語のバイブル.原著の "Advanced R" は名著で,R言語の深淵を理解するにはこの本がもっとも良い.ここまでマスターするとR Guruを名乗れます.

教師あり学習アルゴリズム

k-近傍法

ここでは最近傍法の1つk-近傍法を使ったデータ分類アルゴリズムを学びます.

ナイーブ・ベイズ

スパムフィルタなどで活躍する単純ベイズ法を使った分類アルゴリズムを学びます.講義までに講義ノートの練習問題1と2を解いてきてください.

決定木と分類ルール

決定木と分類ルールと呼ばれる学習アルゴリズムを使った分類アルゴリズムを学びます.

回帰法による数値予測

ニューラルネットワークとサポートベクトルマシン

教師なし学習アルゴリズム

相関ルールによるパターン検出

k平均によるクラスタリング

メタ学習アルゴリズム