7. ベクトルと行列

線形代数学 I: 平均、偏差、分散

スライドはこちらから。

問題はこちらから

はい、承知いたしました。統計学の基本概念を線形代数のベクトル表記を用いて解説する講義ノートについて、章立てを整理し、専門性と分かりやすさを両立させる形で編集します。

データ分析のための線形代数：ベクトルによる記述統計学

私たちの周りには数値データが溢れています。これらのデータを効率的に処理し、その特徴を掴むために、線形代数の「ベクトル」という概念は極めて強力な武器となります。この講義では、データをベクトルとして表現し、平均、分散、標準偏差といった基本的な統計量をベクトル演算（特に内積）を用いてスマートに計算する方法を学びます。

第1章データをベクトルで表現する

1.1 なぜベクトルで表現するのか？

個々の数値をベクトルという一つのオブジェクトにまとめることで、以下のメリットが生まれます。

記述の簡潔さ: 何百、何千というデータを \(\mathbf{x}\) という一つの記号で表現でき、数式やアルゴリズムが非常に見通し良くなります。
計算の効率化: コンピュータはベクトルや行列の計算を非常に高速に行うことができます。データをベクトルとして扱うことで、その恩恵を最大限に受けることができます。
幾何学的解釈: \(n\)個のデータセットを\(n\)次元空間内の「点」や「矢印」として捉えることで、データの分布や関係性について直感的な洞察を得る道が開けます。

1.2 データベクトルと`1`ベクトル

定義: データベクトル \(n\)個の観測値 \(x_1, x_2, \ldots, x_n\) からなるデータセットは、\(n\)次元の列ベクトル \(\mathbf{x}\) として以下のように表現します。これをデータベクトルと呼びます。

\[\mathbf{x} = \begin{pmatrix} x_1 \\ x_2 \\ \vdots \\ x_n \end{pmatrix}\]

定義: 1ベクトル (イチベクトル) 統計量の計算、特に総和や平均を扱う際に便利な、全ての要素が1である\(n\)次元ベクトルを1ベクトルと呼び、\(\mathbf{1}_n\) と表記します。

\[\mathbf{1}_n = \begin{pmatrix} 1 \\ 1 \\ \vdots \\ 1 \end{pmatrix}\]

第2章ベクトルで計算する基本統計量

2.1 平均値：データの「中心」

平均値は、データセットの中心的な傾向を示す最も基本的な指標です。

定義: 平均値 (ベクトル表記) データベクトル \(\mathbf{x}\) の平均値 \(\bar{x}\) は、\(\mathbf{x}\) と \(\mathbf{1}_n\) の内積を用いて次のように定義されます。

\[\bar{x} = \frac{1}{n} (\mathbf{1}_n^T \mathbf{x}) = \frac{1}{n} \sum_{i=1}^{n} x_i\]

この表記により、総和記号 \(\sum\) を使わずにデータの合計を \(\mathbf{1}_n^T \mathbf{x}\) と簡潔に表現できます。

2.2 偏差ベクトル：中心からの「ズレ」

偏差は、個々のデータが平均からどれだけ離れているかを示します。

定義: 偏差ベクトル データベクトル \(\mathbf{x}\) の各要素から平均値 \(\bar{x}\) を引いたベクトルを偏差ベクトル \(\mathbf{d}\) と呼びます。

\[\mathbf{d} = \mathbf{x} - \bar{x}\mathbf{1}_n = \begin{pmatrix} x_1 - \bar{x} \\ x_2 - \bar{x} \\ \vdots \\ x_n - \bar{x} \end{pmatrix}\]

💡重要な性質：偏差の総和は常にゼロ 偏差ベクトル \(\mathbf{d}\) の要素の総和は常に \(0\) になります。これは、ベクトル表記では \(\mathbf{d}\) と \(\mathbf{1}_n\) の内積が \(0\) であること、すなわち幾何学的に2つのベクトルが直交していることを意味します。

\[\mathbf{1}_n^T \mathbf{d} = 0 \quad \iff \quad \mathbf{1}_n \perp \mathbf{d}\]

2.3 分散と標準偏差：データの「ばらつき」

分散と標準偏差は、データが平均値の周りにどの程度散らばっているかを示す指標です。

定義: 分散 (ベクトル表記) 分散 \(\sigma^2\) は、偏差の二乗和の平均であり、偏差ベクトル \(\mathbf{d}\) のノルム（長さ）の二乗 \(\|\mathbf{d}\|^2\) を用いて次のように定義されます。

\[\sigma^2 = \frac{1}{n} \sum_{i=1}^{n} (x_i - \bar{x})^2 = \frac{1}{n} (\mathbf{d}^T \mathbf{d}) = \frac{1}{n} \|\mathbf{d}\|^2\]

定義: 標準偏差 標準偏差 \(\sigma\) は、分散の正の平方根です。単位が元のデータと一致するため、ばらつきを直感的に解釈しやすくなります。

\[\sigma = \sqrt{\sigma^2} = \sqrt{\frac{1}{n} \|\mathbf{d}\|^2} = \frac{\|\mathbf{d}\|}{\sqrt{n}}\]

2.4 分散の便利な計算公式

分散は、定義式だけでなく「（二乗の平均）-（平均の二乗）」という公式でも計算でき、こちらの方が便利な場合があります。

定理: 分散の別公式 (ベクトル表記) \(\(\sigma^2 = \left(\frac{1}{n} \mathbf{x}^T \mathbf{x}\right) - \bar{x}^2\)\)

ここで、\(\mathbf{x}^T \mathbf{x}\) はデータベクトルの各要素を二乗して足し合わせたもの（ノルムの二乗）です。

証明の概略: 分散の定義式 \(\sigma^2 = \frac{1}{n} \sum (x_i - \bar{x})^2\) の括弧内を展開し、\(\sum x_i = n\bar{x}\) の関係を用いることでこの公式を導出できます。

例題：体温データの統計量

5人の体温データ \(\mathbf{x} = (36.5, 36.8, 37.2, 36.4, 36.9)^T\) で実際に計算してみましょう。

平均値 \(\bar{x}\): \(\bar{x} = \frac{1}{5}(36.5 + \dots + 36.9) = \frac{183.8}{5} = \mathbf{36.76}\) (℃)
偏差ベクトル \(\mathbf{d}\): \(\mathbf{d} = \mathbf{x} - 36.76 \cdot \mathbf{1}_5 = (-0.26, 0.04, 0.44, -0.36, 0.14)^T\)
分散 \(\sigma^2\): \(\|\mathbf{d}\|^2 = (-0.26)^2 + \dots + (0.14)^2 = 0.412\) \(\sigma^2 = \frac{1}{5} (0.412) = \mathbf{0.0824}\) (℃²)
標準偏差 \(\sigma\): \(\sigma = \sqrt{0.0824} \approx \mathbf{0.287}\) (℃)

第3章応用：集団内での相対的位置を示す「偏差値」

平均や標準偏差が異なる集団間で、個々のデータの相対的な位置を比較するための指標が「偏差値」です。

3.1 偏差値の計算方法

あるデータ \(x_i\) の偏差値 \(T_i\) は、平均 \(\bar{x}\) と標準偏差 \(\sigma\) を用いて、次の2段階で計算されます。

基準化 (z-score): まず、データが平均から標準偏差の何個ぶん離れているかを示すzスコアを計算します。 \(\(z_i = \frac{x_i - \bar{x}}{\sigma}\)\)
スケール変換: 次に、zスコアを平均50、標準偏差10の尺度に変換します。これが偏差値です。 \(\(T_i = 10 \times z_i + 50\)\)

3.2 偏差値の性質と注意点

利点: 異なるテストの点数など、平均やばらつきが違うデータを「偏差値」という共通の物差しで比較できます。
解釈: 偏差値50はちょうど集団の平均を意味します。60なら平均より標準偏差1つぶん優秀、40なら標準偏差1つぶん下、というように解釈できます。
注意点: 偏差値はあくまでその集団内での相対的な位置を示すものです。集団のレベルが異なれば、同じ偏差値でも絶対的な能力は異なります。