数理情報リテラシー
Introduction
この授業は、わたしが大学生だった頃に恩師が担当していた 統計科学同演習、データ解析同演習にインスピレーションを受けて構築した数理統計学の知識に基づくデータ分析の授業です。数理統計学は、現代の統計学の理論的な根幹をなすツールですが、その一方で深く理解するためには多くの時間と労力を要します。しかし、データサイエンスを志す学生にとっては理解しておくべき内容が詰まっています。
この授業にもう1つのインスピレーションを与えたのは、 Statistical Inference via Data Science: A ModernDive into R and the Tidyverse (Chester Ismay, Albert Y. Kim, and Arturo Valdivia, 2025) の本です。この本では、数学的な概念を式を極力避けて解説しながら、数理統計学の本質に迫る内容を提供しています。
この授業は、参加する皆さんにデータ分析とはこういうふうに考えて進めていくんだということを伝えるために作りました。そして、このコースは最終レポートで、皆さんに1つのデータを深掘り、分析し、レポートを作成するところまで到達してもらいます。また、この授業は、可能な限りにおいて線形代数、微積分、プログラミング/コーディングの経験を前提とはしませんが、データを扱う以上は行列や微分積分の知識が最低限必要です。
この授業では、複雑な統計手法は一切扱わず、"線形回帰モデル" という最も代表的な統計モデルを深掘りし、データ分析の一連の流れについて学ぶ機会を提供します。それに加えて、とにかく手を動かしながらデータサイエンスで行われる1つ1つの事柄について理解を深めていきます。
成績の評価
この授業の評価は、第1回-第15回を通して出題されるレポート課題(100%)によって行います。この課題では、指定されたデータを対象に分析を行い、その結果をレポートするというものです。課題を順々にこなしていくことで、分析レポートが出来上がります。レポート提出には、2つの提出物が必要です。1つ目は、Google Colab で実際に分析を行ったプログラムと出力結果をまとめた ipynb ファイルです。もう1つは分析結果をレポートの形式でまとめたPDFです。
授業の課題に時間を割けない人や、授業時間外に自分でいろいろ試す時間がないという人にはあまり向かないかもしれないです。昨年度までと異なり、単位の認定基準も厳しいことから、やる気のある人向けだと思ってください。ただ内容はハードですが、授業についてこればデータ分析の流れがゼロから理解できるように作ってあります。
また、この授業は選択必修なので1年生で取る必要があるわけではなく、2年生・3年生になってとっても構いません。適切なときに、履修すべき科目として設定するつもりです。
概要
以下の図が、この授業で扱う内容の大まかな流れです。次回、第2回のデータ分析の基礎では、PythonとGoogle Colaboratory とは何かを学び、コーディングの基礎(これだけは知っておいて欲しい最低限)を説明します。次に、最初のPythonライブラリをインストールして読み込み、2023年のニューヨーク市空港からの国内出発便データを簡単に分析します。
-
Pandasとデータサイエンス:Pandas によるデータの集計と可視化
- 第1回:Pandasの基本操作と、基本統計量の計算①(平均・中央値・4分位点)
- 第2回:Pandasの基本操作と、基本統計量の計算②(分散・共分散・相関係数)
- 第3回:Matplotlib/Seabornを使ったデータの可視化①(基本の5プロット)
- 第4回:Matplotlib/Seabornを使ったデータの可視化②(グループ化・変数変換)
-
統計/データモデリング:statmodelsを用いた線形回帰モデルによる分析
- 第5回:単回帰分析と回帰係数の推定とモデルの解釈
- 第6回:重回帰分析と回帰係数の推定とモデルの解釈
- 第7回:データへの当てはまり\(R^2\)と、残差の正規性 QQ-Plot
- 第8回:Cross-Validation によるモデル選択と情報量基準
-
統計的推論:統計的推測による不確実性の評価
- 第9回:サンプリングと推定量のばらつき
- 第10回:ブートストラップ法を用いた信頼区間の構築
- 第11回:仮設検定の考え方
- 第12回:ブートストラップ法による仮説検定
- 第13回:回帰分析における信頼区間と仮説検定の解釈
この授業で意識してほしいこと
この授業では、Python + Google Colaboratory を用いています。皆さんは初めてのプログラミングでコードの書き方が分からず困ることもあると思います。その場合は、ChatGPT や Claude、または Gemini (Google AI Studio)等を用いて問題の解決に取り組んでください。ぜひ、分からないところは「まずは生成AIに尋ねる」という姿勢を持って、AIと一緒に学習してください。
データサイエンスパイプライン
データとは単なる数字の集まりではありません。また、データ分析は野球の打率などの事象を把握するための数字を提供することのみを意味することはではありません。データ分析は、科学的な主張を裏付けるための一連の手続きであり、特に定量的な研究においてはこの手続きに則らないものは、再現性の観点から科学とは呼ばれません。
科学の基礎は「再現性の確保」であり、「統計的に有意」、「p < 0.05」のような表面的な数字の結果を追い求めることではありません。また、「データ分析から、チョコレートが体に良いことが示された」といった「効果がある」謳い文句を目にしたときに、統計的な手続き
についてきちんと学んでいれば、主張について納得するために、どの部分を疑い何を確認すれば良いかがわかります。これはデータ駆動型の意思決定が社会に浸透する中で、私たち人間が意思決定の手綱を手放さないために必要不可欠なことです。みなさんが、データサイエンス学部で学ぶ意義は、自分が導いた結果や、目の前にある主張が信頼できるものかどうか、あるいは信頼には値しないものかということについて、理由をもって説明できるようになることです。
データ分析は単に結果の数字を追い求めるものではなく、人や社会の課題を解決する切り口をデータから発見する
という重要な側面があります。そのためには、複雑な手法で高い予測制度を達成する以前に、目に前にあるデータがどのような現象から生まれたものかを深く理解する必要があります。そのため、データ分析という言葉でまとめられてしまっていますが、実際には様々な要素技術があります。以下に一部を示しましたが、これらが一体となってデータ分析を支えています。