第12章 行列分解と因子分析のつながり
本章では、行列分解の技法と因子分析との密接な関係について、数理的な観点から詳細に議論します。ここでは、特に以下の点に焦点を当てます。
- 行列分解の基本概念とその代表的な手法(特に固有値分解および特異値分解)
- 主成分分析(PCA)と因子分析の数学的関係
- 因子分析モデルにおける行列分解の役割と、その推定方法の背景
- モデルの同定性、回転、自由度に関する理論的議論
本章は、研究者や大学院生向けのレクチャーノートとして、テクニカルな内容を中心に解説します。
12.1 行列分解の基礎
12.1.1 固有値分解(Eigenvalue Decomposition)
任意の $ p \times p $ の対称行列 $ \mathbf{A} $(例えば分散共分散行列 $ \Sigma $)は、固有値分解により次のように表されます。
- $ \mathbf{Q} $ は直交行列であり、その列は $ \mathbf{A} $ の固有ベクトル
- $ \mathbf{\Lambda} $ は対角行列で、対角要素は固有値 \(\lambda_1, \lambda_2, \dots, \lambda_p\)
この分解は、主成分分析(PCA)や因子分析における次元削減の基礎となります。
12.1.2 特異値分解(Singular Value Decomposition, SVD)
任意の $ m \times n $ 行列 $ \mathbf{X} $ に対して、SVD は次のように分解されます。
- $ \mathbf{U} $ は $ m \times m $ の直交行列
- $ \mathbf{S} $ は $ m \times n $ の対角行列(ただし、対角要素は非負の特異値)
- $ \mathbf{V} $ は $ n \times n $ の直交行列
SVDは、データの構造を明示するための強力なツールであり、PCA の計算においても広く用いられています。
12.2 主成分分析 (PCA) と因子分析の数学的関係
12.2.1 PCAの数学的枠組み
PCAは、データ行列 \(\mathbf{X}\) の分散共分散構造を最大限に説明する直交基底を見つける手法です。
中心化されたデータ行列 \(\mathbf{X}\)(各列の平均が0)は、SVDにより以下のように分解されます。
主成分は、右側の直交行列 $ \mathbf{V} $ の列ベクトルであり、固有値は $ \mathbf{S}^2/(n-1) $ に対応します。
この枠組みで、分散の大部分を占める成分を抽出することにより次元削減が実現されます。
12.2.2 因子分析モデルとの比較
因子分析モデルは、観測変数 $ \mathbf{x} $ を潜在因子 $ \mathbf{f} $ と特有誤差 $ \boldsymbol{\epsilon} $ の線形結合としてモデル化します。
ここで、\(\Lambda\) は因子負荷行列、\(\Psi\) は特有分散(対角行列)です。
PCAの場合、全分散の構造に基づき直交変換を行うのに対し、因子分析は共通因子(\(\Lambda\Lambda^\top\))と特有因子(\(\Psi\))に分解する点で異なります。
同定性の問題
因子分析モデルは、回転不変性(因子負荷行列は任意の直交変換によって表現できる)などの理由から、同定性に関する問題が生じます。
これを数学的に扱うために、制約条件(例えば、潜在因子の分散を単位行列に固定するなど)を導入します。
12.3 因子分析における行列分解の視点
12.3.1 行列分解としての因子分析
因子分析は、観測変数の共分散行列 \(\Sigma\) を、低ランク行列 \(\Lambda\Lambda^\top\) と対角行列 \(\Psi\) に分解する問題と捉えることができます。
これは以下の最適化問題に帰着されます。
ただし、\(\Psi\) は対角行列であるという制約があります。
この問題は、低ランク近似の一種として、行列分解の枠組みで理解できます。
12.3.2 回転と非一意性
行列 \(\Lambda\) の解は、任意の直交行列 $ \mathbf{T} $ に対して、
となるため、因子分析の解は非一意です。
この性質は、因子回転(Varimax, Promax など)の理論的根拠ともなり、解釈を容易にするための「単純構造」を目指す際の自由度として利用されます。
12.4 数理的な推定と最尤法
12.4.1 最尤法の定式化
因子分析の最尤法では、観測データ $ \mathbf{x}_i $ が多変量正規分布に従うと仮定します。
対数尤度は以下のように表現されます。
ここで、$ S $ はサンプル共分散行列です。
この最尤関数を最大化する問題は、非線形最適化問題として解かれ、数値的手法(例:EMアルゴリズム、Newton-Raphson 法)によって推定されます。
12.4.2 EMアルゴリズムと潜在変数の扱い
EMアルゴリズムは、潜在変数 $ \mathbf{f} $ を「欠測データ」とみなして、Eステップでその条件付き期待値と共分散を計算し、Mステップでパラメータ $ \Lambda $ と $ \Psi $ を更新する反復的手法です。
この手法は、行列分解の視点からも、データの完全なモデルを「分解」していく過程と解釈できます。
12.5 因子分析とその他の行列分解手法との比較
12.5.1 主成分分析(PCA)との比較
-
PCA:
PCAは、データ行列のSVDに基づいて、データの分散を最大限に説明する直交基底を抽出します。
数学的には、中心化されたデータ \(\mathbf{X}\) に対し、 $$ \mathbf{X} = \mathbf{U} \mathbf{S} \mathbf{V}^\top $$ と分解し、主成分は $ \mathbf{V} $ の列ベクトルです。 -
因子分析:
因子分析は、データの共分散行列を、共通因子と特有因子の寄与に分解する点で、PCAとは目的が異なります。
PCAは全分散を対象とするのに対し、因子分析は共通分散に焦点を当て、特有分散をモデル外の雑音として扱います。
12.5.2 非負値行列分解(NMF)との関連
非負値行列分解(NMF)は、データが非負値を持つ場合に、要素が非負値となる低ランク近似を求める手法です。
因子分析とは異なり、NMFは物理的・意味的な制約(非負性)を加えることで解釈性を向上させるアプローチですが、両者とも低ランク行列分解の一形態として見ることができます。
12.6 まとめ
本章では、因子分析を行列分解の一種として位置づけ、以下の点を中心に解説しました。
-
行列分解の基本概念:
固有値分解や特異値分解など、行列分解の基礎的手法とその数学的性質を確認しました。 -
PCA と因子分析の比較:
PCAはデータ全体の分散を最大化する直交変換であるのに対し、因子分析は共通因子と特有因子に分解する点で異なることを示しました。 -
因子分析モデルにおける分解:
因子分析は、共分散行列 $ \Sigma $ を $ \Lambda\Lambda^\top + \Psi $ に分解する問題として定式化され、その推定は最尤法やEMアルゴリズムを通じて行われます。 -
回転と非一意性:
因子負荷行列の回転により、解釈の容易さを追求する一方、非一意性の問題(任意の直交変換による不変性)についても考察しました。 -
他の行列分解手法との関連:
PCAやNMFなど、他の行列分解技法との比較を通じて、因子分析の位置づけとその独自性を明確にしました。
この内容は、研究者や上級学生を対象としたテクニカルなレクチャーノートとして、因子分析の数理的背景と行列分解との関係を深く理解するための基盤となることを目指しています。最新の文献や既存の理論(Jöreskog、Sörbom、Browneなど)の知見を踏まえ、正確かつ網羅的な情報を提供するよう努めています。