コンテンツにスキップ

数理情報リテラシー

Introduction

この授業は、Statistical Inference via Data Science: A ModernDive into R and the Tidyverse (Chester Ismay, Albert Y. Kim, and Arturo Valdivia, 2025) にインスピレーション受けて、Python と Google Colaboratory を用いた講義として再開発したものです。この授業は、線形代数、微積分、プログラミング/コーディングの経験を前提とせず、とにかく手を動かしながらデータサイエンスで行われる1つ1つの事柄について理解を深めていきます。

昨年度までの2年間の授業では、生成AIの使い方や深層学習の仕組みについて解説を行ってきましたが、今年はデータ分析に力を入れ、この授業15回分のレクチャーでデータ分析の基礎的な事項を実践的に学びます。

成績の評価

この授業の評価は、第15回に出題されるレポート課題(100%)によって行います。この課題では、指定されたデータを対象に分析を行い、その結果をレポートするというものです。例えば、地域Aと地域BのCOVID-19の発生の時系列データを取得し、その差の原因を探りなさいのような課題です。

レポートの作成は2つの提出物からなります。1つ目は、Google Colab で実際に分析を行ったプログラムと出力結果をまとめた ipynb ファイルです。もう1つは分析結果をレポートの形式でまとめたPDFです。レポートの書き方についても指定があり、内容の構成も実際の論文のような形式で書いてもらいます。

授業の課題に時間を割けない人や、授業時間外に自分でいろいろ試す時間がないという人にはあまり向かないかもしれないです。昨年度までと異なり、単位の認定基準も厳しいことから、やる気のある人向けだと思ってください。ただ内容はハードですが、授業についてこればデータ分析の流れがゼロから理解できるように作ってあります。

また、この授業は選択必修なので1年生で取る必要があるわけではなく、2年生・3年生になってとっても構いません。適切なときに、履修すべき科目として設定するつもりです。

概要

以下の図が、この授業で扱う内容の大まかな流れです。

ModernDive フローチャート

次回、第2回のデータ分析の基礎では、PythonとGoogle Colaboratory とは何かを学び、コーディングの基礎(これだけは知っておいて欲しい最低限)を説明します。次に、最初のPythonライブラリをインストールして読み込み、2023年のニューヨーク市空港からの国内出発便データを簡単に分析します。

  1. Pandasとデータサイエンス:Pandasなどのデータサイエンスライブラリを使ってツールボックスを構築します。特に:

    • 第3回:Matplotlib/Seabornを使ったデータの可視化
    • 第4回:Pandasを使ったデータの整形
    • 第5回:「整形された」データの概念と標準化されたデータ入出力形式の学習
  2. 統計/データモデリング:データサイエンスツールとStatsmodelsを使って、最初のデータモデルを作成します。特に:

    • 第6回:1つの説明変数だけを持つ基本的な回帰モデルの探索
    • 第7回:複数の説明変数を持つ重回帰モデルの検討
  3. 統計的推論:データサイエンスツールを用いて、統計的推論を理解します。

    • 第8回:サンプリングと推定量のばらつき
    • 第9-10回:ブートストラップ法を用いた信頼区間の構築
    • 第10-11回:ブートストラップ法による仮説検定
    • 第12-13回:回帰分析における信頼区間と仮説検定の解釈
  4. データを用いて示唆に溢れた物語を作る:

この授業を通して学んで欲しいこと

この授業の終わりまでに、次のことを学ぶことを目標にします

  1. データサイエンスのためのPandasなどのライブラリを使ってデータの加工をする
  2. 線形回帰として知られる方法を用いて、データにモデルを当てはめる
  3. サンプリング信頼区間仮説検定を用いた統計的推論を行う
  4. これらのツールを使ってデータでストーリーを語る

特に、この授業では、データの可視化に重点をおいています。また、統計学の手法に対する理解を数学の使用を最小限にして伝えられるように工夫しています。

この授業では、Python + Google Colaboratory を用いています。皆さんは初めてのプログラミングでコードの書き方が分からず困ることもあると思います。その場合は、ChatGPT や Claude、または Gemini (Google AI Studio)等を用いて問題の解決に取り組んでください。ぜひ、分からないところは「まずは生成AIに尋ねる」という姿勢を持って、AIと一緒に学習してください。

データサイエンスパイプライン

データとは単なる数字の集まりではありません。また、データ分析は野球の打率などの事象を把握するための数字を提供することのみを意味することはではありません。データ分析は、科学的な主張を裏付けるための一連の手続きであり、特に定量的な研究においてはこの手続きに則らないものは、再現性の観点から科学とは呼ばれません。

科学の基礎は「再現性の確保」であり、「統計的に有意」、「p < 0.05」のような表面的な数字の結果を追い求めることではありません。また、「データ分析から、チョコレートが体に良いことが示された」といった「効果がある」謳い文句を目にしたときに、統計的な手続きについてきちんと学んでいれば、主張について納得するために、どの部分を疑い何を確認すれば良いかがわかります。これはデータ駆動型の意思決定が社会に浸透する中で、私たち人間が意思決定の手綱を手放さないために必要不可欠なことです。みなさんが、データサイエンス学部で学ぶ意義は、自分が導いた結果や、目の前にある主張が信頼できるものかどうか、あるいは信頼には値しないものかということについて、理由をもって説明できるようになることです。

データ分析は単に結果の数字を追い求めるものではなく、人や社会の課題を解決する切り口をデータから発見するという重要な側面があります。そのためには、複雑な手法で高い予測制度を達成する以前に、目に前にあるデータがどのような現象から生まれたものかを深く理解する必要があります。そのため、データ分析という言葉でまとめられてしまっていますが、実際には様々な要素技術があります。以下に一部を示しましたが、これらが一体となってデータ分析を支えています。

  • データ収集
  • データ整形
  • データ可視化
  • 統計モデリング
  • 推論
  • 相関と回帰
  • 結果の解釈
  • データコミュニケーション/ストーリーテリング

これらの要素技術は、Garrett GrolemundとHadley Wickhamが以前「データサイエンスパイプライン」と呼ぶフローにまとめらています。

データ/サイエンスパイプライン

まずは、サイクルのグレーの理解部分をデータ可視化から深め、次に整形されたデータとデータ整形について議論し、最後にモデルの結果を解釈し議論するコミュニケーションについて話します。これらのステップはあらゆる統計分析に不可欠です。