10. 順序ありカテゴリカル変数の扱い
第10章 順序のあるカテゴリカル変数に対する因子分析とポリコリック・ポリセリック相関の理論
従来の因子分析は、連続変数かつ多変量正規分布を仮定したデータを前提として解析を行います。しかし、実務ではしばしばリッカート尺度などの「順序のあるカテゴリカル変数」が用いられることが多く、これらの変数に対しては従来の手法では適切な相関構造が得られない場合があります。本章では、順序のあるカテゴリカル変数の背後に存在する潜在的な連続変数の概念に基づき、ポリコリック相関およびポリセリック相関を用いた因子分析の方法について、数理的な背景、計算方法、そして具体的な応用例を交えて詳しく説明します。
10.1 順序のあるカテゴリカル変数と潜在連続変数モデル
順序のあるカテゴリカル変数(例:リッカート尺度の回答など)は、直接的には連続変数として扱えませんが、これらの変数は背後に連続的な潜在変数が存在すると仮定することで解析が可能になります。
具体的には、観測された順序データ \(X\) は、潜在連続変数 \(X^*\) が特定の閾値によってカテゴリに区分されているとモデル化されます。
例えば、\(X\) が \(k\) 個のカテゴリーを持つ場合、閾値 \(\tau_0 = -\infty, \tau_1, \tau_2, \dots, \tau_{k-1}, \tau_k = \infty\) を用いて、
$$
X = i \quad \text{if} \quad \tau_{i-1} < X^* \le \tau_i, \quad i=1,\dots,k.
$$
このような潜在変数モデルを前提に、順序データ同士の相関を推定する手法がポリコリック相関、また順序データと連続データ間の相関を推定する手法がポリセリック相関です。
10.2 ポリコリック相関の数理的背景と計算方法
10.2.1 数理的背景
ポリコリック相関は、2つの順序変数 \(X\) と \(Y\) の背後にある連続潜在変数 \(X^*\) と \(Y^*\) が、二変量正規分布に従うと仮定します。
すなわち、
$$
\begin{pmatrix} X^ \ Y^ \end{pmatrix} \sim N\left(\begin{pmatrix} 0 \ 0 \end{pmatrix}, \begin{pmatrix} 1 & \rho \ \rho & 1 \end{pmatrix}\right).
$$
それぞれの観測値 \(X\) と \(Y\) は、以下の閾値によって区分されます。 - \(X = i\) if \(\tau_{i-1}^X < X^* \le \tau_i^X\) - \(Y = j\) if \(\tau_{j-1}^Y < Y^* \le \tau_j^Y\)
このモデルに基づくと、\(X\) のカテゴリー \(i\) と \(Y\) のカテゴリー \(j\) が同時に観測される確率は、二変量正規分布の累積分布関数(CDF)を用いて以下のように表現されます。 $$ P(X=i, Y=j) = \Phi_2(\tau_i^X, \tau_j^Y; \rho) - \Phi_2(\tau_{i-1}^X, \tau_j^Y; \rho) - \Phi_2(\tau_i^X, \tau_{j-1}^Y; \rho) + \Phi_2(\tau_{i-1}^X, \tau_{j-1}^Y; \rho) $$ ここで、\(\Phi_2(a, b; \rho)\) は、相関係数 \(\rho\) を持つ二変量正規分布のCDFを表します。
10.2.2 推定方法
ポリコリック相関は、観測されたクロス集計表の頻度を用い、上記の式から閾値と相関 \(\rho\) を最尤法により推定します。実際の計算は、反復的な最尤最適化アルゴリズム(例えば、Newton-Raphson法)を用いて行われ、多くの統計ソフトウェア(Rのpolycor
パッケージ、Pythonのstatsmodels
など)で実装されています。
10.3 ポリセリック相関の数理的背景と計算方法
10.3.1 数理的背景
ポリセリック相関は、1つの順序変数 \(X\) と1つの連続変数 \(Y\) の間の相関を推定する方法です。ここでは、\(X\) の背後にある連続潜在変数 \(X^*\) が、閾値により順序データとして観測され、\(Y\) は直接観測された連続変数とします。
\(X^*\) と \(Y\) の間もまた二変量正規分布に従うと仮定し、 $$ \begin{pmatrix} X^* \ Y \end{pmatrix} \sim N\left(\begin{pmatrix} 0 \ \mu_Y \end{pmatrix}, \begin{pmatrix} 1 & \rho \ \rho & \sigma_Y^2 \end{pmatrix}\right). $$
\(X\) は以下の閾値によって区分されます。 $$ X = i \quad \text{if} \quad \tau_{i-1} < X^* \le \tau_i. $$
10.3.2 推定方法
ポリセリック相関の推定も、\(X\) の観測されたカテゴリーと \(Y\) の連続値に基づき、最尤法で相関パラメータ \(\rho\) を推定します。
具体的には、ある連続値 \(Y=y\) に対して、\(X\) がカテゴリー \(i\) となる条件付き確率は、
$$
P(X = i \mid Y = y) = \Phi\left(\frac{\tau_i - \rho \frac{y - \mu_Y}{\sigma_Y}}{\sqrt{1-\rho^2}}\right) - \Phi\left(\frac{\tau_{i-1} - \rho \frac{y - \mu_Y}{\sigma_Y}}{\sqrt{1-\rho^2}}\right)
$$
となり、この確率に基づいて全データの尤度を構築し、最尤推定を行います。
10.4 カテゴリカル変数に対する因子分析への応用
順序のあるカテゴリカル変数の間の相関を、ポリコリック相関行列として算出することで、従来の因子分析の入力として使用できます。
- ステップ1: 各順序変数間のポリコリック相関を推定し、相関行列 \(R_{poly}\) を構築します。
- ステップ2: \(R_{poly}\) を基に、通常の因子分析(例:最小二乗法、最尤法)を実施します。
このとき、元の観測データは順序データであっても、背後に潜む連続的な相関構造に基づく因子が抽出されます。
同様に、連続変数と順序変数が混在する場合は、ポリセリック相関を利用して相関行列を作成し、因子分析を行います。
10.5 まとめ
本章では、連続変数を前提とする従来の因子分析では対応が難しい順序のあるカテゴリカル変数に対して、潜在連続変数モデルを仮定し、ポリコリック相関およびポリセリック相関を用いる方法について説明しました。
-
ポリコリック相関:
2つの順序変数の背後にある連続潜在変数が二変量正規分布に従うという仮定の下、最尤法により相関パラメータと閾値を推定します。 -
ポリセリック相関:
順序変数と連続変数の組み合わせに対して、同様の潜在変数モデルを用いて相関を推定します。 -
応用:
推定された相関行列を因子分析の入力として使用することで、順序データの因子分析が可能となります。