数理情報リテラシー

Introduction

この授業は、わたしが大学生だった頃に恩師が担当していた統計科学概論、統計科学同演習、データ解析同演習にインスピレーションを受けて構築した数理統計学の知識に基づくデータ分析の授業です。数理統計学は、現代の統計学の理論的な根幹をなすツールですが、その一方で深く理解するためには多くの時間と労力を要します。しかし、データサイエンスを志す学生にとっては理解しておくべき内容が詰まっています。

この授業にもう1つのインスピレーションを与えたのは、 Statistical Inference via Data Science: A ModernDive into R and the Tidyverse (Chester Ismay, Albert Y. Kim, and Arturo Valdivia, 2025) の本です。この本では、数学的な概念を式を極力避けて解説しながら、現代の計算統計学的なアプローチによってデータ分析の本質を伝えています。

この授業は、参加する皆さんに データ分析とはこういうふうに考えて進めていくんだ ということを伝えるために作りました。そして、このコースは最終レポートで、皆さんに1つのデータを深掘り、分析し、レポートを作成するところまで到達してもらいます。また、この授業は、可能な限りにおいて線形代数、微積分、プログラミング/コーディングの経験を前提とはしませんが、データを扱う以上は行列や微分積分の知識が最低限必要です。

この授業では、複雑な統計手法は一切扱わず、"線形回帰モデル" という最も代表的な統計モデルを深掘りし、データ分析の一連の流れについて学ぶ機会を提供します。それに加えて、とにかく手を動かしながらデータサイエンスで行われる1つ1つの事柄について理解を深めていきます。

成績の評価

この授業の評価は、第1回-第15回を通して出題されるレポート課題（100％）によって行います。この課題では、指定されたデータを対象に分析を行い、その結果をレポートするというものです。課題を順々にこなしていくことで、分析レポートが出来上がります。

概要

講義計画

講義では、Gapminderデータを用いて、教育機関の長さ、学力の何がGDPを特徴付けるかというテーマで分析を行う。

Part 1: R とデータサイエンス：データの記述と可視化の作法

このパートの目標: データと対話し、その特徴を客観的な指標（記述統計）と直感的な表現（可視化）で他者に伝えられるようになる。分析結果をIMRaDの型に沿って構造化する習慣を身につける。

第1回：データサイエンスへの招待 🗺️
- 内容: Google Colab上でのRの起動と基本操作（コードセルの実行、変数定義）。なぜデータ分析に「型」が必要か？科学的レポートの標準形式 IMRaD (Introduction, Methods, Results, and Discussion) の概説。最終的なゴールとして、簡単な分析レポートが書けるようになることを示す。
- キーワード: Google Colab, R, RStudio, IMRaD, 変数, データフレーム。
第2回：データの種類と可視化戦略 ① 📊
- 内容: データを読み込み、その構造を理解する (glimpse())。質的変数と量的変数の区別。変数の種類に応じた適切な可視化の重要性。1変数の可視化: 量的変数にはヒストグラム (geom_histogram) や箱ひげ図 (geom_boxplot)、質的変数には棒グラフ (geom_bar) を使う。
- キーワード: tidyverse, ggplot2, read_csv, 質的変数, 量的変数, ヒストグラム, 棒グラフ。
第3回：データの種類と可視化戦略 ② 🎨
- 内容: 2変数の可視化: 量的変数同士の関係は散布図 (geom_point)、質的変数と量的変数の関係は箱ひげ図 (geom_boxplot) やバイオリンプロット (geom_violin) で探る。aes() 内での色 (color) や形 (shape) のマッピングによる3つ目の変数の表現。時系列データの取り扱い。
- キーワード: 散布図, 箱ひげ図, aes() マッピング, ggplot2 レイヤー。
第4回：データの特徴を要約する指標 🔢
- 内容: データの中心を表す指標（平均値, 中央値）と、ばらつきを表す指標（分散, 標準偏差）。2変数間の関係の強さを測る指標（共分散, 相関係数）。Rでの各指標の計算方法。
- キーワード: 平均, 標準偏差, 分散, 共分散, 相関係数, mean(), sd(), var(), cor()。
第5回：データに隠されたパターンを探る ✨
- 内容: dplyr の group_by() と summarise() を組み合わせたグループ化集計。特定のグループ（例：ペンギンの種ごと）に絞って記述統計量を計算し、比較する。filter() や mutate() を用いたデータの前処理。データの結合 merge。
- キーワード: dplyr, group_by, summarise, データラングリング, パイプ演算子 (|>)。
第6回：不確実性の数学的表現：確率分布 🔔
- 内容: なぜ確率を学ぶのか？（データ生成の背後にあるメカニズムのモデル化）。確率分布と確率密度関数の概念。データサイエンスで最も重要な正規分布 \(N(\mu, \sigma^2)\) の性質（68-95-99.7ルール）。後の回帰分析で「誤差が正規分布に従う」という仮定につながることを示唆する。
- キーワード: 確率分布, 確率密度関数, 正規分布, rnorm(), dnorm(), qnorm, qqplot。

Part 2: 統計モデリング：関係性を数式で表現する

このパートの目標: 変数間の関係性を線形回帰モデルで表現し、そのモデルがどの程度データに適合しているかを評価・診断できるようになる。

第7回：単回帰分析 📈
- 内容: 散布図上のパターンを一本の直線 \(y_i = \beta_0 + \beta_1 x_i + \epsilon_i\) で要約する。最小二乗法の計算（微分）。lm() 関数によるモデル構築と、summary() 結果の係数 (Estimate) の解釈（傾きと切片が何を意味するか）。離散変数でグループ化した集団に対する回帰モデルと、プロット。
- キーワード: 線形回帰, 最小二乗法, 説明変数, 応答変数, 回帰係数, lm()。
第8回：重回帰分析 🧩
- 内容: 複数の説明変数 \(x_{i1},...,x_{ip}\) で応答変数 \(y_i\) を予測する。他の変数の影響を固定した場合の係数の解釈（"ceteris paribus"）。ダミー変数を用いた質的変数のモデルへの投入。結果変数の変数変換（対数変換, box-cox変換, Yao-Johnson変換）。交互作用による変数同士の作用の考慮。
- キーワード: 重回帰分析, ダミー変数, 交互作用項（発展）。
第9回：モデルの当てはまりと診断 🩺
- 内容: モデルがデータのばらつきをどれだけ説明できたかを示す決定係数 (\(R^2\)) と調整済み決定係数。モデルの仮定が満たされているかを確認するための残差分析（残差プロット、正規Q-Qプロット）。
- キーワード: 決定係数, 残差, 残差プロット, 正規Q-Qプロット。
第10回：より良いモデルを選ぶ 🏆
- 内容: 過学習 (Overfitting) の危険性。オッカムの剃刀。未知のデータに対する予測性能（汎化性能）の重要性。モデルの汎化性能を評価する交差検証 (Cross-Validation) の概念。カルバックライブラー情報量。モデルの複雑さと当てはまりの良さをバランスする情報量基準 (AIC, BIC)。
- キーワード: 過学習, 交差検証 (CV), AIC (赤池情報量規準), BIC（ベイズ情報量基準）

Part 3: 統計的推論：不確実性を科学する

このパートの目標: 手元のデータ（標本）から得られた知見が、偶然によるものでないことを示し、より大きな背景（母集団）に対しても妥当であると主張するための論理と技術を習得する。

第11回：サンプリングと推定量のばらつき 🎲
- 内容: 母集団と標本。標本から計算される値（推定量）は、サンプルを取り直すたびにばらつく（標本分布）。このばらつきの大きさが標準誤差。シミュレーションによる体感。
- キーワード: 母集団, 標本, パラメータ, 推定量, 標本分布, 標準誤差。
第12回：ブートストラップ法による信頼区間 🏹
- 内容: 複雑な数式を使わずに推定量のばらつきを評価するコンピュータ時代の強力な武器、ブートストラップ法。ブートストラップ法の概念。手元の標本からのリサンプリングにより、標本分布を擬似的に構成し、パラメータの信頼できる範囲（信頼区間）を計算する。
- キーワード: ブートストラップ, リサンプリング, 信頼区間。
第13回：統計的仮説検定の考え方 🤔
- 内容: 「差がない」「効果がない」という帰無仮説 (\(H_0\)) を立て、データがそれにどれだけ反しているかを確率的に評価する。p値の正しい定義（\(H_0\)が真の仮定の下で、観測値以上に極端な結果が得られる確率）。p値の解釈。
- キーワード: 帰無仮説, 対立仮説, p値, 有意水準。
第14回：ブートストラップ法による仮説検定 💻
- 内容: 帰無仮説が真である世界をコンピュータ上でシミュレーションし、観測されたデータがその世界で起こりうるものか（p値が小さいか大きいか）を判断する。2群の平均値の差の検定で実践。回帰分析の回帰係数に対してブートストラップ法を用いて信頼区間を構成し、仮説検定を実行し、結果を統計的推論の視点から解釈。回帰係数が「偶然0ではない」と言えるかを判断する。
- キーワード: シミュレーション, ランダム化検定, p値の計算。
第15回：回帰分析における推論と総合考察 🎓
- 内容: Part 1-3で学んだ知識を全て活用し、IMRaD形式で分析結果を報告するとはどういうことかを最終確認する。
- キーワード: IMRaDによる報告。