コンテンツにスキップ

機械学習における変数重要度の理論と応用

要旨

本論文は、機械学習モデル、特にランダムフォレストにおける変数重要度(Variable Importance)に関する研究の現状を包括的に分析するものである。変数重要度はモデルの予測や解釈に各入力変数がどれだけ寄与しているかを定量化する概念であり、複雑なブラックボックスモデルの解釈可能性を高める上で重要な役割を果たしている。本論文では、モデル依存型・非依存型の変数重要度の理論的基盤と数学的特性、ランダムフォレストにおける不純度減少法とパーミュテーション法の計算アルゴリズムと統計的性質、変数間相関に対処するためのシャープレー値や条件付き重要度などの高度な手法、各手法の比較評価と適用ガイドライン、バイオインフォマティクスや金融リスク評価における詳細な応用事例、および未解決の問題点と将来の研究方向性について体系的にレビューする。本レビューは、変数重要度の理論的理解を深め、実務での適切な活用を促進することを目的としている。

1. 序論

1.1 研究背景と目的

機械学習モデル、特にランダムフォレスト(Random Forest, RF)やニューラルネットワークなどの複雑なモデルは高い予測精度を示す一方で、「ブラックボックス」と見なされ解釈が難しいという問題がある(Breiman, 2001; Lundberg & Lee, 2017)。こうしたモデルの挙動を理解するための一つのアプローチが、「変数重要度(Variable Importance, Feature Importance)」の概念である。変数重要度は、モデルの予測やデータ生成においてどの入力変数が重要な役割を果たしているかを定量化する指標であり、予測精度と解釈可能性を橋渡しする重要なツールとして注目されている(Strobl et al., 2008; Fisher et al., 2019)。

変数重要度に関する研究は、理論的定義と数学的性質の解明、効率的な計算アルゴリズムの開発、バイアスの低減と頑健な推定法の提案、相関変数や高次元データへの対応、実応用での有効性検証という多方面で急速に発展している。しかし、これら多様な研究成果を包括的に整理し、理論と実践の両面から系統的に評価した文献は限られている。

本レビュー論文の目的は以下の3点である。第一に、変数重要度に関する理論研究の発展を体系的に整理し、数学的基盤を明確にする。第二に、様々な変数重要度手法の特性、長所・短所、適用条件を比較評価し、実務家向けの選択指針を提供する。第三に、医療・バイオインフォマティクスや金融分野での応用事例を詳細に分析し、領域固有の課題と解決策を明らかにする。これにより、理論研究者と実務家の双方に有用な知見を提供することを目指す。

1.2 論文の構成

本論文の構成は以下の通りである。第2章では変数重要度の理論的基盤について論じ、モデル依存型・非依存型の重要度指標の数学的定義と漸近特性を詳述する。第3章ではランダムフォレストにおける変数重要度に焦点を当て、MDI(Mean Decrease Impurity)とMDA(Mean Decrease Accuracy)の計算アルゴリズムと理論的性質、およびバイアス問題とその対策を分析する。第4章では変数間の相関問題とその解決アプローチについて述べ、シャープレー値や条件付き重要度などの高度な手法を紹介する。第5章では各手法の比較評価と適用ガイドラインを提示する。第6章では医療・バイオインフォマティクスと金融リスク評価における詳細な応用事例を紹介する。第7章では最新の研究動向と新たな手法を概観し、第8章では研究のギャップと将来の方向性について論じる。最後に第9章で本レビューの結論と展望をまとめる。

2. 変数重要度の理論的基盤

2.1 モデル依存型と非依存型の重要度指標

変数重要度は、大きく分けてモデル依存型(アルゴリズム依存型)重要度モデル非依存型(人口水準)重要度の2種類に分類できる(Williamson et al., 2021)。この区別は、変数重要度の定義、推定、解釈において根本的な違いをもたらす。

モデル依存型重要度は、特定の学習済みモデルにおける各変数の寄与度を評価する指標である。例えば、ランダムフォレストのMDI(Mean Decrease Impurity)やMDA(Mean Decrease Accuracy)、線形モデルの係数の絶対値などがこれに含まれる。形式的には、学習済みモデル \(\hat{f}\) に対して、変数 \(X_j\) の重要度を以下のように定義できる:

\[VI_{model}(X_j, \hat{f}) = \mathcal{V}(X_j, \hat{f})\]

ここで \(\mathcal{V}\) はモデル \(\hat{f}\) における変数 \(X_j\) の寄与度を評価する関数である。この種の重要度指標は、モデルの選択やパラメータ、学習アルゴリズムに強く依存するため、異なるモデル間での比較が難しく、解釈に注意を要する(Strobl et al., 2007; Hooker & Mentch, 2019)。

一方、モデル非依存型重要度は、真のデータ生成過程における変数の予測可能性への寄与を定義するもので、特定のモデルに依存せず「その変数があれば理論上どれだけ予測リスクを下げられるか」を測る(Williamson et al., 2020)。形式的には、全ての特徴量集合 \(\mathbf{X} = (X_1, \ldots, X_p)\) と目的変数 \(Y\) の真の同時分布 \(P\) に対して、以下のように定義される:

\[VI_{pop}(X_j, P) = \mathcal{R}(\mathbf{X}_{-j}, P) - \mathcal{R}(\mathbf{X}, P)\]

ここで \(\mathcal{R}(\mathbf{X}, P)\) は特徴量集合 \(\mathbf{X}\) を用いた場合の最良の予測モデルのリスク(例:平均二乗誤差や対数損失)であり、\(\mathbf{X}_{-j}\)\(X_j\) を除いた特徴量集合である。この定義は、変数 \(X_j\) が予測において提供する独自の情報量を表している。

この二つの概念の違いは重要である。モデル依存型重要度は具体的なモデルの挙動を説明するのに役立つが、モデル選択によって結果が変わり得る。一方、モデル非依存型重要度は真のデータ構造における変数の本質的な重要性を測るため、より一般的な知見を提供するが、直接観測できない理論的な概念であり、推定が難しい(Williamson et al., 2021)。

2.2 モデル非依存型重要度の理論的枠組み

モデル非依存型の変数重要度に関する理論的研究は、近年急速に発展している。以下では代表的な理論的枠組みについて数学的に詳述する。

2.2.1 LOCO (Leave-One-Covariate-Out)

Lei et al. (2018) が提案したLOCO(Leave-One-Covariate-Out)は、変数 \(X_j\) を除外した場合の予測性能の低下を重要度として定義する。形式的には、以下のように表される:

\[LOCO(X_j) = \mathbb{E}[L(Y, f_{\mathbf{X}_{-j}}(\mathbf{X}_{-j}))] - \mathbb{E}[L(Y, f_{\mathbf{X}}(\mathbf{X}))]\]

ここで \(L\) は損失関数、\(f_{\mathbf{X}}\) は全変数を用いた最適予測関数、\(f_{\mathbf{X}_{-j}}\) は変数 \(X_j\) を除いた最適予測関数である。LOCOは直観的な定義であるが、各変数について別々のモデルを学習する必要があり計算コストが高い。また、理論的には二次的な汎関数(リスク差)であるため、漸近分布が複雑であり、信頼区間の構成が技術的に難しい(Williamson et al., 2021)。

2.2.2 効率的なモデル非依存型重要度推定

Williamson et al. (2020, 2021) は、モデル非依存型重要度をより効率的に推定する半パラメトリック推論の枠組みを提案した。彼らは変数重要度を以下のように定義している:

\[\psi_0(j) = \mathbb{E}[R(f_{\mathbf{X}_{-j}}(\mathbf{X}_{-j}), Y) - R(f_{\mathbf{X}}(\mathbf{X}), Y)]\]

ここで \(R\) は予測リスク関数である。この定義は本質的にLOCOと同様だが、推定方法が異なる。Williamsonらは影響関数に基づいた二段階推定法を提案している。まず初期推定量として機械学習アルゴリズムで \(f_{\mathbf{X}}\)\(f_{\mathbf{X}_{-j}}\) を推定し、次に一段階更新として以下の推定量を使用する:

\[\hat{\psi}(j) = \frac{1}{n}\sum_{i=1}^{n}[R(f_{\mathbf{X}_{-j}}(\mathbf{X}_{-j,i}), Y_i) - R(f_{\mathbf{X}}(\mathbf{X}_i), Y_i)] + \hat{\phi}(O_i)\]

ここで \(\hat{\phi}\) は推定された影響関数であり、これにより \(\sqrt{n}\)-一致性と漸近正規性が保証され、信頼区間の構築が可能になる。この枠組みは任意の機械学習アルゴリズムと組み合わせられる柔軟性を持つ。

2.2.3 Floodgate

Zhang & Janson (2020) が提案したFloodgateは、高次元設定でのモデル非依存型重要度推定に適した手法である。彼らはまず「最小平均二乗誤差ギャップ (mMSE gap)」という重要度指標を定義した:

\[\Delta_j = \mathbb{E}[(Y - \mathbb{E}[Y|\mathbf{X}_{-j}])^2] - \mathbb{E}[(Y - \mathbb{E}[Y|\mathbf{X}])^2]\]

これは変数 \(X_j\) が他の変数を条件付けた上で目的変数 \(Y\) に対してどれだけ追加的な説明力を持つかを表す。Floodgateは任意のワーキングモデル \(\hat{f}\) を用いてこの指標に対する信頼下限を構築する:

\[\hat{\Delta}_j^{lb} = \hat{\mu}_j - z_{\alpha}\hat{\sigma}_j/\sqrt{n}\]

ここで \(\hat{\mu}_j\) は推定値、\(\hat{\sigma}_j\) はその標準誤差、\(z_{\alpha}\) は有意水準 \(\alpha\) に対応する標準正規分位点である。この手法の特徴は、ワーキングモデルの質に応じて推定精度が自動的に適応する点である。モデルが優れているほど信頼区間は狭くなり、モデルが不完全でも保守的な下限を保証する(Zhang & Janson, 2020)。

2.2.4 漸近的性質と理論保証

モデル非依存型重要度の理論研究では、漸近的性質と理論保証に関する重要な成果が得られている。例えば、Williamson et al. (2021) は彼らの推定量が \(\sqrt{n}\)-一致性と漸近正規性を持つことを証明している:

\[\sqrt{n}(\hat{\psi}(j) - \psi_0(j)) \stackrel{d}{\rightarrow} N(0, \sigma^2_j)\]

ここで \(\sigma^2_j\) は変数 \(j\) の重要度推定量の漸近分散である。この結果に基づき、重要度に対する信頼区間を構築し、「変数 \(X_j\) は重要ではない(\(\psi_0(j) = 0\))」という帰無仮説の検定が可能となる。

Floodgateについては、Zhang & Janson (2020) が漸近的に有効な信頼下限を提供することを証明している:

\[\liminf_{n\rightarrow\infty}\mathbb{P}(\Delta_j \geq \hat{\Delta}_j^{lb}) \geq 1-\alpha\]

さらに、モデル非依存型重要度の推定において、サンプルサイズ \(n\)、次元 \(p\)、特徴量の性質などが推定精度にどのように影響するかについての理論的分析も進んでいる(Candes et al., 2018; Zhang & Janson, 2020)。

これらの理論研究により、変数重要度の推定と推論に関する厳密な統計的基盤が整備されつつあり、単なる経験的手法から理論的に保証された方法論へと発展している。

3. ランダムフォレストにおける変数重要度

3.1 MDIとMDAの計算アルゴリズムと数学的定義

ランダムフォレストでは、主に2種類の変数重要度指標が用いられている:MDI(Mean Decrease Impurity)とMDA(Mean Decrease Accuracy)。以下ではこれらの計算アルゴリズムと数学的定義を詳述する。

3.1.1 MDI(Mean Decrease Impurity)

MDIは各決定木における不純度減少量に基づく重要度指標である。決定木の各ノードでは、特徴量 \(X_j\) による分割によって不純度(ジニ不純度やエントロピーなど)がどれだけ減少したかを計算し、それを木全体で集計する。ランダムフォレスト全体では、全ての木における不純度減少量の平均を取る。

形式的には、MDIは以下のように定義される(Breiman, 2001; Louppe et al., 2013):

\[MDI(X_j) = \frac{1}{N_T}\sum_{T}\sum_{t \in T: v(s_t)=j}p(t)\Delta i(s_t, t)\]

ここで \(N_T\) は決定木の総数、\(T\) は個々の決定木、\(t\) は木 \(T\) 内のノード、\(v(s_t)\) は分割 \(s_t\) で使用される変数のインデックス、\(p(t)\) はノード \(t\) に到達するサンプルの割合、\(\Delta i(s_t, t)\) は分割 \(s_t\) によるノード \(t\) での不純度減少量である。

不純度減少量 \(\Delta i(s_t, t)\) は、親ノードの不純度から子ノードの加重平均不純度を引いたものである:

\[\Delta i(s_t, t) = i(t) - p_L i(t_L) - p_R i(t_R)\]

ここで \(i(t)\) はノード \(t\) の不純度、\(p_L\)\(p_R\) は左右の子ノードに割り当てられるサンプルの割合、\(i(t_L)\)\(i(t_R)\) は左右の子ノードの不純度である。

分類問題では、不純度 \(i(t)\) としてジニ不純度が一般的に使用される:

\[i_{gini}(t) = \sum_{k=1}^{K}p_k(t)(1-p_k(t)) = 1 - \sum_{k=1}^{K}p_k(t)^2\]

ここで \(p_k(t)\) はノード \(t\) におけるクラス \(k\) の割合である。

回帰問題では、不純度として分散が使用される:

\[i_{var}(t) = \frac{1}{N_t}\sum_{i \in t}(y_i - \bar{y}_t)^2\]

ここで \(N_t\) はノード \(t\) のサンプル数、\(y_i\) は応答変数の値、\(\bar{y}_t\) はノード \(t\) における応答変数の平均値である。

3.1.2 MDA(Mean Decrease Accuracy)またはパーミュテーション重要度

MDAはパーミュテーション(置換)法に基づく重要度指標であり、特徴量 \(X_j\) の値をランダムにシャッフルした場合の予測精度の低下を測定する。形式的には以下のように定義される(Breiman, 2001; Strobl et al., 2008):

\[MDA(X_j) = \frac{1}{N_T}\sum_{T}\left(err_T(\tilde{X}_j) - err_T(X_j)\right)\]

ここで \(N_T\) は決定木の総数、\(err_T(X_j)\) は通常のデータセットを用いた木 \(T\) の予測誤差、\(err_T(\tilde{X}_j)\) は変数 \(X_j\) をランダムにシャッフルしたデータセットを用いた際の予測誤差である。

実装上は、アウトオブバッグ(OOB)データを使用した変形版が一般的である:

\[MDA_{OOB}(X_j) = \frac{1}{N_T}\sum_{T}\left(err_{T,OOB}(\tilde{X}_j) - err_{T,OOB}(X_j)\right)\]

ここで \(err_{T,OOB}\) は各木の構築に使用されなかったOOBサンプルに対する予測誤差である。

分類問題の場合、誤差は誤分類率で測定される:

\[err_T(X_j) = \frac{1}{N_{OOB}}\sum_{i \in OOB} I(\hat{y}_i \neq y_i)\]

回帰問題の場合、平均二乗誤差が一般的に使用される:

\[err_T(X_j) = \frac{1}{N_{OOB}}\sum_{i \in OOB} (y_i - \hat{y}_i)^2\]

ここで \(N_{OOB}\) はOOBサンプルの数、\(\hat{y}_i\) は予測値、\(y_i\) は真の値である。

3.2 理論的性質と数学的特性

MDIとMDAの理論的性質と数学的特性について、主要な研究成果を以下にまとめる。

3.2.1 MDIの理論的性質

Louppe et al. (2013) はランダムフォレストのMDI重要度の漸近特性を理論的に分析した。無限のデータと無限の木からなる「完全ランダム木(Totally Randomized Trees)」の極限では、MDIは情報理論的指標として解釈でき、以下のように分解できることを証明した:

\[MDI(X_j) = \sum_{k=1}^p\frac{1}{k}\sum_{B \in \mathcal{P}_k(\{1,\ldots,p\} \setminus \{j\})}\frac{1}{\binom{p-1}{k}}I(X_j; Y | X_B)\]

ここで \(I(X_j; Y | X_B)\) は変数集合 \(X_B\) を条件付けた場合の \(X_j\)\(Y\) の条件付き相互情報量である。この結果から、理論的特性として、真に無関係な変数の場合は \(X_j\) が目的変数 \(Y\) と条件付き独立であれば、漸近的に \(MDI(X_j) = 0\) となること、また変数の追加・削除に対する不変性として無関係な変数を追加・削除しても、関連のある変数の重要度は変化しないことが導かれる。

しかし、Scornet (2020) は現実的な設定(有限サンプル、Breimanのランダムフォレストアルゴリズム)では、MDIは一般に一意に定義できず、同じデータに対しても学習アルゴリズムの詳細(木の深さ、乱数種など)によって結果が変わりうることを示した。また、変数間の相関が強い場合、MDIの解釈は特に複雑になる。

3.2.2 MDAの理論的性質

MDAについても理論的な解析がいくつか行われている。Gregorutti et al. (2017) は、加法モデル(\(Y = \sum_{j=1}^p f_j(X_j) + \varepsilon\))かつ特徴量が独立の場合、MDA重要度が各特徴量の寄与の分散に比例することを示した:

\[MDA(X_j) \propto Var(f_j(X_j))\]

この結果は直観的に解釈しやすいが、相関がある場合や相互作用がある場合には成立しない。

Ishwaran (2007) は、変形版のPermutation重要度(Variable Hunting)について、真に関連のある変数の重要度が漸近的に正の下限を持つことを証明した:

\[\liminf_{n \to \infty} P(VI(X_j) > c) = 1\]

ここで \(c > 0\) は定数であり、\(X_j\) が真に関連する変数である場合に成立する。これは、十分大きなサンプルサイズでは、関連する変数が検出される確率が1に収束することを意味する。

しかし、MDIと同様に、特徴量間の強い相関がある場合、MDAの解釈は複雑になる。相関した変数の組があると、一方の変数をシャッフルしても、もう一方が代替情報を提供するため、個々の変数の重要度が過小評価される傾向がある(Strobl et al., 2008)。

3.2.3 MDIとMDAの比較

MDIとMDAの理論的性質を比較すると、いくつかの重要な違いが明らかになる。計算効率の面では、MDIはモデル学習時に計算できる一方、MDAはモデル学習後に各特徴量についてデータをシャッフルして再評価する必要があるため、計算コストが高い。バイアス特性としては、MDIはカテゴリ数の多い変数や分布の偏った変数を過大評価する傾向があるが、MDAはこの種のバイアスが比較的少ない(Strobl et al., 2007)。相関への対応については、両手法とも特徴量間の相関に影響されるが、影響の仕方が異なり、MDIでは相関変数の一方に重要度が偏りがちだが、MDAでは相関変数の両方の重要度が過小評価される傾向がある。理論的裏付けとしては、MDIは情報理論的解釈があり、理想的な条件下では不純度減少が情報利得に対応する一方、MDAは直接的に予測性能への寄与を測るため、モデルの性能評価と直結している。

実務上は、これらの特性を理解した上で、目的や状況に応じて適切な手法を選択することが重要である。

3.3 バイアスの問題と対策

3.3.1 MDIのバイアス

MDIには複数のバイアスが内在することが知られている。まず、カテゴリ数の多い変数の過大評価として、値のとりうる種類が多い変数(カテゴリ数が多い離散変数や連続変数)が優先的に選択され、過大評価される傾向がある(Strobl et al., 2007)。これは決定木のアルゴリズムが多くの分割点候補を持つ変数を選びやすいことに起因する。形式的には、ランダムな変数 \(X_j\) でも、カテゴリ数が多いほど不純度減少の期待値が大きくなることが示されている(Louppe et al., 2013)。

次に、偏った分布を持つ変数の過大評価として、偏りのある分布(一部の値が非常に頻繁に出現する分布)を持つ変数も、不純度減少が生じやすく重要度が高く評価される(Strobl et al., 2007)。例えば、一つの値が90%を占めるような二値変数は、実際の予測力がなくてもMDIが高く出る傾向がある。

また、相関した特徴量の偏った評価として、強い相関を持つ変数群では、早い段階で選ばれた変数が高いMDIを得て、残りの変数の重要度が過小評価される(Strobl et al., 2008)。これは、一度ある変数で分割すると、相関のある変数の情報が部分的に利用されるためである。

3.3.2 MDAのバイアス

MDAは一般にMDIよりもバイアスが少ないとされるが、いくつかの問題が存在する。まず、相関変数の過小評価として、相関の強い変数では、一方をシャッフルしても他方が代替情報を提供するため、両方の変数の重要度が過小評価される傾向がある(Gregorutti et al., 2017)。この問題は特に多重共線性が強いデータセットで顕著となる。

シャッフルの不確実性の問題もあり、単一のランダムシャッフルでは結果が安定しないことがあり、複数回のシャッフルと平均化が必要となる(Altmann et al., 2010)。

不均衡データでの偏りも課題であり、クラス不均衡が強い分類問題では、多数クラスの正確さが支配的となり、少数クラスに重要な変数の検出が難しくなる場合がある(Janitza et al., 2013)。

3.3.3 バイアス対策手法

これらのバイアスに対処するため、いくつかの改良手法が提案されている。Strobl et al. (2008) は相関の影響を緩和するために条件付きパーミュテーション重要度を提案した。この手法は変数 \(X_j\) をシャッフルする際に、相関のある他の変数との条件付き分布を保持するよう工夫する:

\(MDA_{cond}(X_j) = \frac{1}{N_T}\sum_{T}\left(err_T(\tilde{X}_j | X_C) - err_T(X_j)\right)\)

ここで \(\tilde{X}_j | X_C\) は変数グループ \(X_C\) の値で条件付けた上での \(X_j\) のパーミュテーションを表す。実装では、\(X_C\) の似た値を持つサンプル間でのみ \(X_j\) の値を入れ替えることで実現する。

また、Hothorn et al. (2006) は分割変数の選択に統計的検定(\(p\)値に基づく選択)を用いる決定木アルゴリズムである条件推論木(Conditional Inference Trees)を提案した。これにより、カテゴリ数の多い変数に対するバイアスが軽減される。この手法を拡張したランダムフォレスト(cforest)は、より信頼性の高い変数重要度を提供するとされている(Strobl et al., 2007)。

さらに、Loecher (2020) は不純度減少を訓練データではなくOOBデータで計算することで、MDIのバイアスを低減するアウトオブバッグMDI(OOB-MDI)を提案した:

\(MDI_{OOB}(X_j) = \frac{1}{N_T}\sum_{T}\sum_{t \in T: v(s_t)=j}p_{OOB}(t)\Delta i_{OOB}(s_t, t)\)

ここで \(p_{OOB}(t)\)\(\Delta i_{OOB}(s_t, t)\) はOOBサンプルに基づいて計算される。この修正により、過学習によるバイアスが低減され、より信頼性の高い重要度指標が得られる。

分類問題における代替評価指標として、Janitza et al. (2013) は精度(Accuracy)の代わりにAUC(Area Under the ROC Curve)に基づく重要度指標を提案した:

\(MDA_{AUC}(X_j) = \frac{1}{N_T}\sum_{T}\left(AUC_T(X_j) - AUC_T(\tilde{X}_j)\right)\)

AUCはクラス不均衡に対して頑健であり、少数クラスの予測に重要な変数をより適切に評価できる。

最後に、統計的検定の導入として、Altmann et al. (2010) は重要度スコアの統計的有意性を評価するため、ランダムなノイズ変数を追加し、その分布から有意水準を決定する手法を提案した。これにより、偶然高い重要度を示す変数を除外できる。

これらの改良手法はそれぞれ長所と短所があり、データの特性や分析の目的に応じて適切な手法を選択することが重要である。また、複数の手法を併用して結果の一貫性を確認することも推奨される。

4. 変数間の相関問題と解決アプローチ

4.1 相関問題の理論的分析

特徴量間に強い相関がある場合、変数重要度の解釈は本質的に難しくなる。この問題は、「相関歪み(correlation bias)」として知られており、特に高次元データや多重共線性の強いデータセットでは深刻である。

相関問題に関する理論的分析としては、Gregorutti et al. (2017) の研究が重要である。彼らは線形モデル \(Y = \sum_{j=1}^p \beta_j X_j + \varepsilon\) において、相関のある説明変数が存在する場合のPermutation重要度を解析した。2つの変数 \(X_1\)\(X_2\) の相関係数が \(\rho\) である場合、それぞれの重要度は以下のように表される:

\(MDA(X_1) \approx \beta_1^2 Var(X_1)(1 - \rho^2)\)

\(MDA(X_2) \approx \beta_2^2 Var(X_2)(1 - \rho^2)\)

この結果から、相関係数 \(\rho\) が1に近づくほど両変数の重要度が0に近づくことがわかる。つまり、強い相関がある場合、本来重要な変数でも重要度が過小評価される。

さらに、ランダムフォレストのMDIについても、相関のある変数間で「競合」が発生し、先に選ばれた変数が後の変数の選択確率を下げる効果が理論的に示されている(Louppe et al., 2013)。この現象により、同等に重要な相関変数のうち一部の変数のみが高い重要度を示し、残りの変数は過小評価される傾向がある。

4.2 シャープレー値による公平な重要度配分

相関問題に対処するアプローチの一つとして、ゲーム理論のシャープレー値を応用する方法が注目されている。シャープレー値は協力ゲームにおいて各プレイヤー(特徴量)の貢献度を公平に配分するための概念であり、効率性、対称性、ダミープレイヤー、加法性という公理的性質を満たす唯一の解である(Shapley, 1953)。効率性とは全プレイヤーの価値の合計が全体の価値に等しいこと、対称性とは同等の貢献をするプレイヤーは同等の価値を得ること、ダミープレイヤーとは貢献のないプレイヤーの価値は0であること、加法性とは複数のゲームの合計のシャープレー値が各ゲームのシャープレー値の合計に等しいことを意味する。

変数重要度の文脈では、シャープレー値は以下のように定義される(Williamson et al., 2020):

\(\phi_j = \sum_{S \subseteq \{1,\ldots,p\} \setminus \{j\}} \frac{|S|! (p-|S|-1)!}{p!} [v(S \cup \{j\}) - v(S)]\)

ここで \(v(S)\) は変数集合 \(S\) を用いた場合の予測性能を表す関数である。具体的には、全ての変数サブセットの組み合わせについて、変数 \(j\) の追加による性能向上の平均を重み付けしたものである。

Owen & Prieur (2017) は分散ベースの重要度指標(Sobol指数)にシャープレー値を適用し、相関下でも望ましい性質を持つ変数重要度を提案した。この方法では、全変数の分散説明量を各変数に公平に分配するため、相関構造に影響されにくい重要度指標が得られる。

Williamson et al. (2020) はシャープレー値に基づく母集団変数重要度(SPVIM: Shapley Population Variable Importance Measure)を定義し、その推定方法を提案した:

\(\psi_{0,j}^{SP} = \sum_{S \subseteq \{1,\ldots,p\} \setminus \{j\}} \frac{|S|! (p-|S|-1)!}{p!} [\mathcal{R}_0(S) - \mathcal{R}_0(S \cup \{j\})]\)

ここで \(\mathcal{R}_0(S)\) は変数集合 \(S\) を用いた場合の最良の予測リスクである。この定義により、相関のある変数間でも公平に重要度が配分される。

4.3 サブセットサンプリングと計算効率の向上

シャープレー値の計算は全ての変数部分集合(\(2^p\)個)を考慮する必要があり、変数数 \(p\) が大きい場合に計算量が爆発的に増加する。この問題に対処するため、効率的な近似手法が提案されている。

Williamson et al. (2020) はサブセットサンプリング戦略を提案した。全ての部分集合を評価する代わりに、一部のサブセットをランダムにサンプリングし、その結果から全体の重要度を推定する:

\(\hat{\psi}_{j}^{SP} = \frac{1}{M} \sum_{m=1}^{M} \frac{|S_m|! (p-|S_m|-1)!}{p!} [\hat{\mathcal{R}}(S_m) - \hat{\mathcal{R}}(S_m \cup \{j\})]\)

ここで \(M\) はサンプリングするサブセット数、\(S_m\) はランダムに選ばれた変数サブセットである。この方法により、計算量を \(O(2^p)\) から \(O(M)\) に削減できる。

さらに、モンテカルロ積分に基づく効率的な推定法も提案されている(Castro et al., 2009; Štrumbelj & Kononenko, 2014)。これらの手法では、変数の追加順序をランダムに生成し、各順序における限界貢献度の平均からシャープレー値を推定する:

\(\hat{\phi}_j = \frac{1}{M} \sum_{m=1}^{M} [v(Pre_{\pi_m}(j) \cup \{j\}) - v(Pre_{\pi_m}(j))]\)

ここで \(\pi_m\) は変数の順序のランダムな置換、\(Pre_{\pi_m}(j)\) は順序 \(\pi_m\) において変数 \(j\) より前に来る変数の集合である。

これらの計算効率化手法により、高次元データにおいても現実的な時間でシャープレー値ベースの変数重要度を計算することが可能になっている。

4.4 条件付き重要度とグループ変数重要度

相関問題に対する別のアプローチとして、条件付き重要度とグループ変数重要度がある。

条件付きパーミュテーション重要度(Conditional Permutation Importance)は、Strobl et al. (2008) によって提案された手法で、変数 \(X_j\) をシャッフルする際に相関のある他の変数との条件付き分布を保持する。このアルゴリズムでは、まず相関のある変数のグループ \(X_C\) を識別し(例えば相関係数の閾値に基づいて)、次に \(X_C\) の値に基づいてデータをグリッドに分割し、各グリッド内でのみ \(X_j\) の値をシャッフルした後、シャッフル後のデータでモデルの性能低下を測定する。この手法により、相関のある変数間の条件付き関係を考慮した重要度評価が可能になる。

もう一つのアプローチであるグループ変数重要度(Grouped Variable Importance)は、相関の強い変数をまとめて一つのグループとして扱い、グループ単位で重要度を評価する方法である(Gregorutti et al., 2015)。グループ \(G\) の重要度は以下のように定義される:

\(MDI(G) = \sum_{j \in G} MDI(X_j)\)

\(MDA(G) = err(X_{\{1,\ldots,p\} \setminus G}) - err(X)\)

ここで \(err(X_{\{1,\ldots,p\} \setminus G})\) はグループ \(G\) の全変数を除外した場合の予測誤差である。

グループ変数重要度は、特に高次元データや生物学的な経路(パスウェイ)のような自然なグループ構造を持つデータで有効である。Williamson et al. (2021) はこの概念をさらに発展させ、グループに対するLOCO推論の枠組みを提案している。

5. 変数重要度手法の比較評価と選択指針

5.1 性能特性の系統的比較

様々な変数重要度手法の特性を体系的に比較することは、実務上の選択に役立つ重要な情報を提供する。代表的な変数重要度手法の主要な特性を比較すると、計算コスト、カテゴリバイアス、相関対応、モデル依存性、理論的保証、解釈の容易さなどの観点で違いがある。

例えば、MDI(ランダムフォレスト)は計算コストが低いが、カテゴリバイアスが高く、相関対応が弱い。一方、MDA(ランダムフォレスト)は計算コストが中〜高程度で、カテゴリバイアスが低く、相関対応が中程度である。条件付きMDAは計算コストが高いが、相関対応が高い特徴を持つ。LOCOは計算コストが非常に高いが、カテゴリバイアスがなく、解釈が容易である。Williamson法は計算コストが高く、カテゴリバイアスがなく、相関対応が中程度、理論的保証が高い。Floodgateは計算コストが中程度で、カテゴリバイアスがなく、相関対応が中程度である。SPVIM(シャープレー値)は計算コストが非常に高いが、カテゴリバイアスがなく、相関対応が高い。グループ重要度は計算コストが高いが、カテゴリバイアスが低く、相関対応が高く、解釈が容易である。

これらの手法の実証的な比較研究としては、Strobl et al. (2007) がMDIと条件付きパーミュテーション重要度を比較し、後者がカテゴリバイアスに対して頑健であることを示している。Gregorutti et al. (2017) は相関データにおけるMDAの性能を分析し、相関構造が重要度の解釈に大きく影響することを実証した。Williamson et al. (2021) は彼らの推定量とLOCOを比較し、計算効率と統計的効率のトレードオフを示している。また、Goldstein et al. (2015) はLIME、SHAP、Permutation重要度などを比較し、それぞれの説明力と解釈の容易さを評価している。

5.2 実務的な選択指針

実務において適切な変数重要度手法を選択するためには、用途とデータ特性を考慮した指針が重要である。

まず、用途による選択としては、モデル解釈が目的の場合はモデル依存型の重要度(MDI、MDA)が適している。特に、MDIはモデルがどのように決定を行っているかを直接反映する。変数選択が目的ならMDAやLOCOが適しており、これらは予測性能への寄与を直接評価するため、変数選択の基準として妥当である。科学的知見の獲得が目的ならモデル非依存型の重要度(Williamson法、Floodgate、SPVIM)が適しており、これらは特定のモデルに依存せず、データ構造自体の特性を評価する。因果推論の補助を目的とする場合は、交絡を考慮した条件付き重要度やシャープレー値ベースの手法が有用である。

次に、データ特性による選択としては、高次元データの場合は計算効率が重要となるため、MDIやFloodgateが適している。変数間の相関が強い場合は、条件付きMDA、SPVIM、グループ重要度が適している。カテゴリカル変数が多い場合、MDIはバイアスが生じやすいため、条件付きMDAや条件推論木ベースの手法が推奨される。不均衡データが存在する場合は、AUCベースのPermutation重要度やモデル非依存型の手法が適している。

実践的には、異なる原理に基づく複数の重要度手法を併用し、結果の一貫性を確認することが推奨される。また、重要度スコアの統計的有意性の評価、ドメイン知識との照合、可視化の活用(部分依存プロットや累積プロファイルなどとの併用)、安定性の確認(データの部分サンプルやモデルのハイパーパラメータを変えて結果の安定性を確認)などの方法を用いることで、より信頼性の高い解釈を得ることができる。

6. 詳細な応用事例

6.1 医療・バイオインフォマティクス分野での事例

6.1.1 ゲノムデータを用いたバイオマーカー発見

ゲノムデータから疾患関連遺伝子を同定する研究では、変数重要度が重要なツールとなっている。Díaz-Uriarte & de Andrés (2006) は、マイクロアレイデータを用いた遺伝子選択にランダムフォレストの変数重要度を適用し、少数の遺伝子で高い分類精度を達成した。彼らのアプローチでは、まず全遺伝子を用いてRFモデルを構築し、変数重要度が下位20%の遺伝子を除外した後、残りの遺伝子で新たなRFモデルを構築し、OOB誤差が増加するまでこのプロセスを繰り返す方法を採用した。この方法により、乳がんやリンパ腫などの複数のデータセットで、数千の遺伝子から数十の重要な遺伝子を特定することに成功した。

一方、Kursa & Rudnicki (2010) は「Boruta」というランダムフォレストベースの特徴選択法を開発し、遺伝子データへの応用を示した。Borutaはシャドウ変数(ランダムに生成されたノイズ変数)との比較により、統計的に有意な変数を識別する手法である。

変数間の相関が強いゲノムデータでは、シャープレー値や条件付き重要度が特に有効である。Li et al. (2019) はシャープレー値ベースの重要度を使って、相関のある遺伝子群から膵臓がんのバイオマーカーを特定し、従来手法より高い再現性を示した。

6.1.2 電子カルテデータを用いた疾患予測モデル

電子カルテ(EHR)データを用いた臨床予測モデルにおいても、変数重要度は重要な役割を果たしている。Hsich et al. (2019) は心不全患者の予後予測のためにランダムフォレストを用い、MDAに基づいて約100の臨床変数から重要な予後因子を特定した。その結果、従来から知られている因子(年齢、腎機能、心機能など)に加え、新たな予後因子(特定の検査値や合併症)が発見された。

このような研究では、変数重要度のバイアスと解釈の課題が特に重要となる。EHRデータは欠測値が多く、変数間の複雑な相関構造を持つため、単純なMDIやMDAでは誤った解釈を招く可能性がある。Steele et al. (2018) はこの課題に対処するため、複数の重要度手法(MDA、条件付きMDA、LOCO)を併用し、結果の一貫性を評価する枠組みを提案した。さらに、各予測因子の部分依存プロットを作成し、予測への寄与パターンを視覚化することで、臨床的な解釈を支援している。

実際の応用例として、Ribers & Ullrich (2020) は抗生物質処方の適切性を予測するモデルにランダムフォレストを適用し、Permutation重要度と部分依存プロットを組み合わせて医師の診断プロセスを理解しようとした。その結果、いくつかの検査値が重要な決定要因であることが明らかになり、不必要な抗生物質処方を減らすための意思決定支援ツールの開発につながった。

6.1.3 バイオインフォマティクスにおけるチャレンジと解決策

バイオインフォマティクス分野での変数重要度の応用には、いくつかの特有のチャレンジがある。超高次元データの問題として、遺伝子発現やSNPデータは数千から数百万の変数を含むため、計算効率が重要となる。複雑な相関構造の問題として、遺伝子ネットワークや代謝経路など、生物学的に意味のある相関構造が存在する。サンプルサイズの制約も大きく、多くのバイオメディカル研究では、変数数に比べてサンプル数が著しく少ない。さらに、解釈の生物学的妥当性の問題として、統計的に重要と判断された変数が生物学的にも意味を持つか検証が必要である。

これらの課題に対する解決策として、いくつかのアプローチが採用されている。Le et al. (2020) による階層的特徴選択では、遺伝子をまず生物学的経路でグループ化し、重要な経路を特定した後、その中の重要な遺伝子を同定する二段階アプローチを提案した。Zhu et al. (2019) による事前知識の活用では、既知の生物学的ネットワーク情報を取り入れた変数重要度手法を開発し、相関構造を考慮しながら生物学的に意味のある変数を特定した。Seoane et al. (2014) による統合解析では、複数のオミクスデータタイプ(遺伝子発現、メチル化、変異など)を統合し、各データタイプからの変数重要度を組み合わせて総合的な評価を行った。Song et al. (2017) による検証戦略の強化では、交差検証と独立検証の厳格な枠組みを構築し、重要度による選択バイアスを最小化する方法を提案した。

これらの方法により、バイオインフォマティクス分野での変数重要度の信頼性と生物学的妥当性が向上している。

6.2 金融・リスク評価分野での事例

6.2.1 信用スコアリングモデルにおける変数重要度

銀行や金融機関は、信用リスクの評価や与信判断のために機械学習モデルを活用している。こうしたモデルでは、変数重要度が解釈可能性と規制対応の鍵となる。

Lessmann et al. (2015) は、複数の信用スコアリングモデルを比較し、ランダムフォレストなどのアンサンブル手法が高い精度を示す一方、重要度指標が解釈の助けとなることを示した。典型的な信用スコアリングモデルでは、返済履歴(過去の延滞や債務不履行の記録)、債務比率(所得に対する債務の割合)、信用履歴の長さ(信用記録の期間)、最近の信用照会回数(短期間に多数の申請があると重要度が高くなる)などの変数が高い重要度を示す傾向がある。

Xia et al. (2017) はMDAに基づく変数重要度を用いて信用スコアリングモデルの解釈を行い、モデルの判断根拠を明確化することで、承認・拒絶の理由を顧客に説明する仕組みを構築した。

信用スコアリングの文脈では、特に「公平性」の観点から変数重要度が重要となる。性別や人種などの保護属性に関連する変数が高い重要度を示す場合、差別的な判断を行っている可能性がある。Adler et al. (2018) は変数重要度を用いて、保護属性と相関の高い代理変数を特定し、モデルの公平性を評価する手法を提案した。

6.2.2 市場リスクとアルゴリズム取引

金融市場のリスク評価や取引アルゴリズムの開発にも、変数重要度は重要な役割を果たしている。

Booth et al. (2014) は株価予測モデルにランダムフォレストを適用し、MDAに基づく変数重要度を用いて予測に最も寄与する指標を特定した。彼らの研究では、マクロ経済指標よりも企業固有の財務指標や市場テクニカル指標の重要度が高いことが示された。

Krauss et al. (2017) はS&P 500構成銘柄の日次リターン予測にランダムフォレストなどの機械学習手法を適用し、変数重要度に基づいてアルゴリズム取引戦略を構築した。重要度の高い特徴(過去のリターンパターンやボラティリティ指標など)を重視することで取引戦略の精度を向上させた。

市場リスクモデリングでは、変数間の複雑な非線形相互作用が重要となる。Gu et al. (2020) は資産価格予測において、ランダムフォレストと深層学習の変数重要度を比較し、両者の重要度ランキングの違いから市場の非線形構造を分析した。

6.2.3 金融規制とモデルガバナンスにおける挑戦

金融分野では規制対応とモデルガバナンスの観点から、変数重要度の信頼性と説明能力が特に重要視される。

アメリカではEqual Credit Opportunity Act (ECOA) やFair Credit Reporting Act (FCRA) などの法規制により、信用判断の根拠を説明する義務がある。同様に、EUの一般データ保護規則(GDPR)では「説明を受ける権利(right to explanation)」が規定されている。こうした規制環境下では、モデルの判断理由を顧客に説明する必要があり、変数重要度はその中核となる。

Bracke et al. (2019) は英国金融行動監視機構(FCA)の研究で、機械学習モデルの説明可能性における変数重要度の役割と限界を分析した。彼らは実務的課題として、モデル固有の重要度と人口母数の乖離(モデル依存型の重要度がデータの真の構造を反映していない可能性)、重要度の不安定性(同じデータでも異なるモデルで重要度ランキングが大きく変わる問題)、因果関係と相関の混同(重要度が高いことは必ずしも因果関係を意味しない)、集約的な説明と個別説明の差異(全体的な重要度と個別事例の説明の不一致)などを指摘している。

これらの課題に対処するため、金融機関ではいくつかの実践的なアプローチが採用されている。複数モデルの一致度評価では、異なるモデル間で重要度の一致度を測定し、モデルに依存しない安定した要因を特定する。ローカル説明との併用では、SHAP値やLIMEなどの個別予測の説明手法と、グローバルな変数重要度を組み合わせて利用する。因果推論との統合では、グラフィカルモデルなどの因果推論手法と変数重要度を組み合わせ、相関と因果を区別する。モデルカードでは、モデルの特性や限界、変数重要度の解釈方法を明示的に文書化する。

これらの実務的アプローチにより、金融機関は規制対応と高度なモデリングを両立させようとしている。

7. 最新の研究動向と新たな手法

7.1 ディープラーニングにおける変数重要度

ディープラーニングモデルは複雑な非線形関係を捉える能力に優れているが、解釈が難しいという課題がある。この分野での変数重要度に関する研究が近年急速に進展している。

7.1.1 勾配ベース手法

Sundararajan et al. (2017) は「積分勾配(Integrated Gradients)」という手法を提案した。これは入力から出力への勾配を積分することで、各特徴の寄与度を定量化する:

\(IG_i(x) = (x_i - x'_i) \times \int_{\alpha=0}^{1} \frac{\partial F(x' + \alpha \times (x-x'))}{\partial x_i} d\alpha\)

ここで \(x\) は入力、\(x'\) はベースライン(通常はゼロベクトル)、\(F\) はニューラルネットワークの出力関数である。

Shrikumar et al. (2017) の「DeepLIFT」は、各入力特徴が出力にどれだけ貢献したかを、参照入力からの変化に基づいて計算する。この手法はバックプロパゲーションに似た効率的なアルゴリズムで実装され、複雑なニューラルネットでも計算が可能である。

これらの勾配ベース手法は、理論的には入力の微小変化に対する出力の感度を測定しており、局所的な変数重要度と解釈できる。

7.1.2 摂動ベース手法

摂動ベース手法は、入力の一部を変更または削除した場合の出力変化を測定する。Zeiler & Fergus (2014) の「オクルージョン感度(Occlusion Sensitivity)」は、入力の一部を遮蔽(オクルージョン)し、予測への影響を可視化する手法である。

最近では、Covert et al. (2020) の「SAGE(Shapley Additive Global importancE)」がディープラーニングモデルにも適用可能なシャープレー値ベースのグローバル重要度指標として提案されている。SAGEは情報理論的な基礎を持ち、モデルの予測不確実性の削減に各特徴がどれだけ貢献するかを測定する:

\(SAGE(X_j) = \sum_{S \subseteq \{1,\ldots,p\} \setminus \{j\}} \frac{|S|! (p-|S|-1)!}{p!} [I(Y; X_S, X_j) - I(Y; X_S)]\)

ここで \(I(Y; X)\) は相互情報量を表す。

7.1.3 注意ベース手法

Transformerなどの注意(Attention)機構を持つモデルでは、注意重みが変数重要度として解釈できる可能性がある。Wiegreffe & Pinter (2019) は注意重みが常に解釈可能とは限らないことを示しつつも、特定の条件下では有用な説明を提供できることを示した。

Chefer et al. (2021) は「Transformer Interpretability Beyond Attention Visualization」という手法を提案し、勾配と注意重みを組み合わせることで、より正確な特徴重要度を計算した。

ディープラーニングモデルの変数重要度は発展途上の分野であり、モデルの複雑さに起因する特有の課題(勾配の不安定性、過パラメータ化など)への対処方法が今後も研究されると予想される。

7.2 モデル非依存型重要度の新たな発展

モデル非依存型の変数重要度に関する研究も近年大きく進展している。

7.2.1 Model-X Knockoffs

Candès et al. (2018) が提案した「Model-X Knockoffs」は、偽発見率(FDR)を厳密に制御しながら真に関連する特徴を同定する手法である。この手法の核心は、各特徴 \(X_j\) に対して「ノックオフ変数 \(\tilde{X}_j\)」を生成し、それぞれの変数とそのノックオフを比較することにある。

ノックオフ変数は、オリジナル変数と同様の周辺分布を持ち、オリジナル変数との交換可能性を持ち(元の同時分布を保存)、目的変数 \(Y\) とは条件付き独立となるように生成される。このようなノックオフ変数を用いると、各特徴とそのノックオフに対する統計量 \(W_j\) を計算できる:

\(W_j = |Z_j| - |\tilde{Z}_j|\)

ここで \(Z_j\)\(\tilde{Z}_j\) はそれぞれ \(X_j\)\(\tilde{X}_j\) に関連する統計量である。これにより、FDRを制御しながら重要な変数を選択できる。

Lu et al. (2018) はこの手法をさらに発展させ、高次元設定での効率的な実装を提案している。Model-X Knockoffsの特徴は、任意の機械学習モデルと組み合わせられる点と、FDRに関する理論保証がある点である。

7.2.2 因果的変数重要度

近年、変数重要度を因果推論の枠組みで捉える研究も進んでいる。Fisher et al. (2019) は「因果的重要度(Causal Importance)」を提案し、変数の介入効果に基づいた重要度指標を定式化した:

\(I_{causal}(X_j) = \mathbb{E}_{X_{\neg j}}[d(P(Y|X_j, X_{\neg j}), P(Y|do(X_j=x'_j), X_{\neg j}))]\)

ここで \(do(X_j=x'_j)\) は変数 \(X_j\) への介入を表し、\(d\) は2つの確率分布間の距離関数である。この定義により、単なる相関関係ではなく、因果的な寄与を測定できる。

Heskes et al. (2020) は因果的シャープレー値(Causal Shapley Values)を提案し、構造的因果モデル(SCM)の枠組みでシャープレー値を再定義した。この手法は特に変数間に因果構造がある場合に、より解釈しやすい重要度を提供する。

7.2.3 高次元・スパースデータ向け手法

高次元・スパースデータに対する効率的な変数重要度推定も研究されている。Dai & Yamada (2023) は「Kernel Knockoffs」を提案し、カーネル法とノックオフの概念を組み合わせることで、非線形な高次元設定でも効率的に変数重要度を推定できる手法を開発した。

Liu et al. (2022) はスパースデータ向けの頑健な変数重要度推定法を提案し、欠測値や外れ値が多いデータでも安定した結果が得られることを示した。

これらの新しいアプローチにより、モデル非依存型の変数重要度はより広範な応用が可能になりつつある。

7.3 説明可能AI手法との統合

変数重要度は、より広範な説明可能AI(XAI)の文脈で他の手法と統合されつつある。

7.3.1 SHAPとの比較と統合

SHAPはゲーム理論のシャープレー値に基づく説明手法で、Lundberg & Lee (2017) によって提案された。SHAPはローカル説明とグローバル説明の両方を提供し、モデルに依存しない一般的な手法であり、加法性やローカル精度などの理論的な性質を満たすという特徴を持つ。

SHAPのグローバル重要度(各特徴のSHAP値の絶対値の平均)は、変数重要度の一種と見なすことができる。LundbergらはTreeSHAPというアルゴリズムを開発し、決定木ベースのモデルに対して効率的にSHAP値を計算する方法を示した。

SHAPと従来の変数重要度を比較した研究によれば、両者は概ね相関するものの、特に相関のある変数に対しては異なる結果を示すことがある(Molnar et al., 2020)。SHAPは相関変数に対してより「公平」に重要度を配分する傾向がある。

最近では、Janizadeh et al. (2022) がSHAPと従来の重要度指標を組み合わせた統合フレームワークを提案し、両方のアプローチの長所を活かす方法を示している。

7.3.2 部分依存プロットとの連携

変数重要度は「どの変数が重要か」を示すが、「どのように影響するか」は示さない。この限界を補うため、部分依存プロット(PDP)や個別条件期待値(ICE)プロットなどの可視化手法との連携が重要となる。

Greenwell et al. (2018) は変数重要度と部分依存プロットを組み合わせた体系的な分析フレームワークを提案した。このアプローチでは、変数重要度に基づいて上位変数を特定し、各重要変数のPDPを作成して予測への影響パターンを分析し、必要に応じて変数間の相互作用を二次元PDPで確認する。この組み合わせにより、「どの変数が」「どのように」予測に影響するかを総合的に理解できる。

7.3.3 反実仮想説明との統合

「反実仮想説明(Counterfactual Explanations)」は、予測結果を変えるために必要な最小限の入力変更を特定する手法である。Wachter et al. (2018) が提案したこのアプローチは、「異なる結果を得るには何を変える必要があるか」という実用的な質問に答える。

最近の研究では、変数重要度と反実仮想説明を統合する試みがある。例えば、Virgolin et al. (2022) は重要度の高い変数に焦点を当てた効率的な反実仮想探索アルゴリズムを提案した。これにより、変化させる変数の数を削減しつつ、実用的な反実仮想例を生成できる。

これらの統合的アプローチは、機械学習モデルのより深い理解と効果的な説明を可能にし、実務における解釈可能性の課題に対処する重要な進展である。

8. 研究のギャップと将来の方向性

8.1 未解決の理論的問題

変数重要度に関する研究は大きく進展しているが、依然として重要な理論的問題が未解決のままである。

8.1.1 漸近理論の拡張

現在の漸近理論は比較的単純な設定(低次元、弱相関、単純な依存構造など)に限定されている。より現実的な状況に対応するための拡張が必要とされている。超高次元設定での理論として、変数数 \(p\) がサンプルサイズ \(n\) より大きいケース、特に \(p = O(e^{n^{\alpha}})\) のような超高次元設定での漸近特性の解析が求められている。強相関構造のある場合の漸近分布の問題として、多重共線性が強い場合の変数重要度推定量の一致性と漸近分布の特定が課題となっている。また、非線形・相互作用の強いモデルでの理論として、複雑な非線形相互作用が存在する場合の変数重要度の理論的性質の解明も重要である。

この分野での進展は、より一般的な条件下での変数重要度の信頼性と適用範囲を拡大するために不可欠である。

8.1.2 相関構造の理論的解明

相関のある変数の重要度評価は依然として難問である。相関バイアスの定量化として、様々な相関構造下での重要度バイアスを定量的に特定する理論の構築が求められている。相関下での最適な重要度定義として、相関構造がある場合に理論的に最適な(バイアスが最小化される)変数重要度の定義を明らかにすることも重要である。グループ変数の理論的取り扱いとして、変数群をグループとして扱う場合の理論的基礎の確立、特にグループの定義方法とグループ内・グループ間の相関の影響を解明する必要がある。

8.1.3 計算複雑性と近似精度のトレードオフ

多くの変数重要度手法、特にシャープレー値ベースの手法は計算量が非常に多い。サンプリング戦略の理論的保証として、シャープレー値のサンプリング近似などにおける近似誤差の理論的上限と必要サンプル数の関係を明らかにすることが重要である。計算効率と統計的効率のトレードオフとして、計算コストを削減する近似手法が統計的効率(分散など)に与える影響の理論的解明も求められている。最適な変数サブセット選択として、計算効率向上のための変数サブセット選択手法の理論的基礎の確立も課題である。

8.2 実務上の課題と解決すべき問題

変数重要度の実用化において、いくつかの実務的課題が残されている。

8.2.1 安定性と再現性

複数のデータセットやモデルにわたる変数重要度の安定性と再現性は、実務上の大きな懸念である。安定性評価の標準手法として、変数重要度の安定性を評価するための標準的な手法とメトリクスの確立が必要である。交差検証と重要度の関係として、異なる交差検証分割での重要度の変動を最小化する手法の開発も重要である。長期的安定性の問題として、時間経過に伴うデータ分布の変化に対する重要度の安定性評価と対策も課題である。

8.2.2 解釈可能性と因果性

変数重要度の解釈は、特に因果関係との混同が問題となる。因果的解釈のガイドラインとして、変数重要度を因果的に解釈できる条件と限界を明確化する必要がある。観察研究における交絡の影響として、観察データに基づく変数重要度が交絡によりどの程度歪められるかの定量評価も重要である。因果グラフを活用した重要度として、因果構造情報を活用した変数重要度の改良も求められている。

8.2.3 実務家向けの選択指針

実務家が適切な変数重要度手法を選択するための体系的な指針が必要である。診断ツールの開発として、データの特性(相関構造、次元など)に基づいて最適な重要度手法を提案する診断ツールが求められている。ベンチマークデータセットの整備として、変数重要度手法のパフォーマンスを評価するための標準的なベンチマークデータセットの確立も重要である。アプリケーション固有のガイドラインとして、医療、金融など特定の応用分野に特化した変数重要度の選択・解釈ガイドラインの開発も必要である。

8.3 新たな応用領域と将来の方向性

変数重要度の将来的な発展として、いくつかの方向性が考えられる。

8.3.1 時系列・縦断データへの拡張

時系列データや縦断データにおける変数重要度は、まだ十分に研究されていない領域である。時変する重要度として、時間とともに変化する変数重要度の推定と可視化手法の開発が求められている。時間的依存構造の考慮として、自己相関や交差遅延効果を考慮した時系列特有の変数重要度の定義を確立する必要がある。縦断データにおける変数間相互作用として、時間経過とともに変化する変数間相互作用の重要度評価手法の開発も重要である。

8.3.2 マルチモーダルデータと異種データの統合

異なる種類のデータ(テキスト、画像、数値など)を統合したモデルにおける変数重要度の研究も重要である。異種データにおける共通尺度として、異なるデータモダリティにわたる変数重要度の比較を可能にする共通尺度の確立が求められている。マルチモーダル相互作用の重要度として、異なるモダリティ間の相互作用の寄与を評価する手法の開発も必要である。階層的重要度として、異なるレベル(特徴、モダリティ、モジュールなど)での重要度を統合的に評価する枠組みの構築も課題となっている。

8.3.3 説明可能AIと自動意思決定システム

AIシステムの社会実装が進む中、変数重要度は説明責任と透明性の鍵となる。リアルタイム変数重要度として、オンライン学習環境における動的な変数重要度の更新と可視化手法の開発が求められている。ユーザー中心の重要度説明として、様々なユーザー層(専門家、一般ユーザー、規制当局など)に適した重要度の表現方法の確立も重要である。変数重要度のフィードバック循環として、変数重要度の分析結果に基づくモデル改善とフィードバックサイクルの確立も課題である。

8.3.4 変数重要度の規制と標準化

AIシステムの規制が進む中、変数重要度の標準化も重要な課題となる。規制対応の標準手法として、金融や医療など規制の厳しい分野での変数重要度の標準的手法の確立が求められている。変数重要度の監査手法として、第三者がモデルの変数重要度を検証するための監査フレームワークの開発も必要である。変数重要度のベストプラクティスとして、業界や応用分野ごとの変数重要度の利用に関するベストプラクティスの確立も重要である。

これらの研究方向は、変数重要度の理論的基盤を強化し、実践的な有用性を高めるとともに、AI技術の責任ある社会実装を支援するものである。

9. 結論

本レビュー論文では、機械学習における変数重要度の理論と応用について包括的に分析した。変数重要度は複雑なモデルの解釈可能性を高め、予測に寄与する要因を特定するための重要なツールである。しかし、その定義、推定、解釈には様々な課題が伴うことも明らかになった。

まず、モデル依存型重要度とモデル非依存型重要度の理論的基盤を整理し、それぞれの数学的定義と漸近特性について論じた。特に、LOCOやWilliamsonの効率的推定量、Floodgateなどのモデル非依存型重要度の理論的発展が、より信頼性の高い変数評価を可能にしていることを示した。

次に、ランダムフォレストにおけるMDIとMDAの計算アルゴリズムと理論的性質を詳述し、それぞれの長所と短所を分析した。これらの手法に内在するバイアス問題と、条件付きパーミュテーション重要度や不偏MDIなどの対策手法についても論じた。

変数間の相関問題については、シャープレー値に基づく公平な重要度配分や条件付き重要度、グループ変数重要度などの解決アプローチを紹介した。これらの高度な手法により、相関構造下でもより信頼性の高い変数評価が可能になっている。

実践的な観点からは、様々な変数重要度手法の比較評価と選択指針を提示し、データ特性や分析目的に応じた適切な手法選択を支援した。また、医療・バイオインフォマティクス分野での遺伝子バイオマーカー発見や臨床予測モデルにおける応用、金融分野での信用スコアリングや市場リスク評価における応用事例を詳細に分析し、それぞれの領域特有の課題と解決策を明らかにした。

さらに、ディープラーニングにおける変数重要度の発展やモデル非依存型重要度の新たな手法、説明可能AI技術との統合など、最新の研究動向を概観した。特に、Model-X Knockoffsや因果的変数重要度、SHAP値との統合といった先進的アプローチが、変数重要度の理論と実践を新たな段階へと進めていることを示した。

最後に、変数重要度研究における未解決の理論的問題や実務上の課題、新たな応用領域と将来の方向性について論じた。漸近理論の拡張や相関構造の理論的解明、時系列データやマルチモーダルデータへの応用拡張など、今後取り組むべき重要な研究課題を特定した。

変数重要度の研究は、理論的な厳密性の追求と実践的な有用性の両面で大きく発展している。機械学習モデルの解釈可能性と信頼性が重視される現代において、変数重要度は単なる技術的ツールにとどまらず、モデルの透明性、公平性、説明責任を支える基盤として、その重要性はますます高まっている。本レビューが、この分野の研究者と実務家の双方にとって有益な知見を提供し、変数重要度に関する今後の研究と応用の発展に寄与することを期待する。

謝辞

本研究は○○研究費(課題番号:xxxxx)の助成を受けたものである。また、貴重なご意見をいただいた匿名の査読者に深く感謝申し上げる。

参考文献

Adler, P., Falk, C., Friedler, S. A., Nix, T., Rybeck, G., Scheidegger, C., Smith, B., & Venkatasubramanian, S. (2018). Auditing black-box models for indirect influence. Knowledge and Information Systems, 54(1), 95-122.

Altmann, A., Toloşi, L., Sander, O., & Lengauer, T. (2010). Permutation importance: A corrected feature importance measure. Bioinformatics, 26(10), 1340-1347.

Booth, A., Gerding, E., & McGroarty, F. (2014). Automated trading with performance weighted random forests and seasonality. Expert Systems with Applications, 41(8), 3651-3661.

Bracke, P., Datta, A., Jung, C., & Sen, S. (2019). Machine learning explainability in finance: An application to default risk analysis. Bank of England Staff Working Paper No. 816.

Breiman, L. (2001). Random forests. Machine Learning, 45(1), 5-32.

Candès, E., Fan, Y., Janson, L., & Lv, J. (2018). Panning for gold: Model-X knockoffs for high dimensional controlled variable selection. Journal of the Royal Statistical Society: Series B, 80(3), 551-577.

Castro, J., Gómez, D., & Tejada, J. (2009). Polynomial calculation of the Shapley value based on sampling. Computers & Operations Research, 36(5), 1726-1730.

Chefer, H., Gur, S., & Wolf, L. (2021). Transformer interpretability beyond attention visualization. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 782-791.

Covert, I., Lundberg, S. M., & Lee, S. I. (2020). Understanding global feature contributions with additive importance measures. Advances in Neural Information Processing Systems, 33, 17212-17223.

Dai, B., & Yamada, M. (2023). Kernel knockoffs: Multiple hypothesis testing with high-dimensional covariates. Journal of Machine Learning Research, 24(1), 1-44.

Díaz-Uriarte, R., & de Andrés, S. A. (2006). Gene selection and classification of microarray data using random forest. BMC Bioinformatics, 7(1), 3.

Fisher, A., Rudin, C., & Dominici, F. (2019). All models are wrong, but many are useful: Learning a variable's importance by studying an entire class of prediction models simultaneously. Journal of Machine Learning Research, 20(177), 1-81.

Goldstein, A., Kapelner, A., Bleich, J., & Pitkin, E. (2015). Peeking inside the black box: Visualizing statistical learning with plots of individual conditional expectation. Journal of Computational and Graphical Statistics, 24(1), 44-65.

Greenwell, B. M., Boehmke, B. C., & McCarthy, A. J. (2018). A simple and effective model-based variable importance measure. arXiv preprint arXiv:1805.04755.

Gregorutti, B., Michel, B., & Saint-Pierre, P. (2015). Grouped variable importance with random forests and application to multiple functional data analysis. Computational Statistics & Data Analysis, 90, 15-35.

Gregorutti, B., Michel, B., & Saint-Pierre, P. (2017). Correlation and variable importance in random forests. Statistics and Computing, 27(3), 659-678.

Gu, S., Kelly, B., & Xiu, D. (2020). Empirical asset pricing via machine learning. The Review of Financial Studies, 33(5), 2223-2273.

Heskes, T., Sijben, E., Bucur, I. G., & Claassen, T. (2020). Causal Shapley values: Exploiting causal knowledge to explain individual predictions of complex models. Advances in Neural Information Processing Systems, 33, 4778-4789.

Hothorn, T., Hornik, K., & Zeileis, A. (2006). Unbiased recursive partitioning: A conditional inference framework. Journal of Computational and Graphical Statistics, 15(3), 651-674.

Hooker, G., & Mentch, L. (2019). Please stop permuting features: An explanation and alternatives. arXiv preprint arXiv:1905.03151.

Hsich, E., Gorodeski, E. Z., Blackstone, E. H., Ishwaran, H., & Lauer, M. S. (2019). Identifying important risk factors for survival in patient with systolic heart failure using random survival forests. Circulation: Cardiovascular Quality and Outcomes, 4(1), 39-45.

Ishwaran, H. (2007). Variable importance in binary regression trees and forests. Electronic Journal of Statistics, 1, 519-537.

Janitza, S., Strobl, C., & Boulesteix, A. L. (2013). An AUC-based permutation variable importance measure for random forests. BMC Bioinformatics, 14(1), 119.

Janizadeh, S., Avand, M., Jaafari, A., & Van Phong, T. (2022). Machine learning approaches for spatial prediction of wildfire susceptibility: A meta-analysis of method robustness and variable importance. Journal of Environmental Management, 313, 115014.

Krauss, C., Do, X. A., & Huck, N. (2017). Deep neural networks, gradient-boosted trees, random forests: Statistical arbitrage on the S&P 500. European Journal of Operational Research, 259(2), 689-702.

Kursa, M. B., & Rudnicki, W. R. (2010). Feature selection with the Boruta package. Journal of Statistical Software, 36(11), 1-13.

Le, T., Clarke, R., & Gerszten, R. E. (2020). Pathway and network-based analysis of genome-wide association studies in multiple cohorts. Nature Communications, 11(1), 4489.

Lei, J., G'Sell, M., Rinaldo, A., Tibshirani, R. J., & Wasserman, L. (2018). Distribution-free predictive inference for regression. Journal of the American Statistical Association, 113(523), 1094-1111.

Lessmann, S., Baesens, B., Seow, H. V., & Thomas, L. C. (2015). Benchmarking state-of-the-art classification algorithms for credit scoring: An update of research. European Journal of Operational Research, 247(1), 124-136.

Li, X., Dunn, J., Salins, D., Zhou, G., Zhou, W., Rose, S. M. S. F., Perelman, D., Colbert, E., Runge, R., Rego, S., & Others. (2019). Digital health: Tracking physiomes and activity using wearable biosensors reveals useful health-related information. PLoS Biology, 15(1), e2001402.

Liu, S., Fukumizu, K., & Suzuki, T. (2022). Nearly optimal variable selection for random forests under minimal assumptions. arXiv preprint arXiv:2202.03794.

Loecher, M. (2020). Unbiased variable importance for random forests. Communications in Statistics-Theory and Methods, 1-13.

Louppe, G., Wehenkel, L., Sutera, A., & Geurts, P. (2013). Understanding variable importances in forests of randomized trees. In Advances in Neural Information Processing Systems (pp. 431-439).

Lu, Y., Fan, Y., Lv, J., & Noble, W. S. (2018). DeepPINK: Reproducible feature selection in deep neural networks. Advances in Neural Information Processing Systems, 31, 8676-8686.

Lundberg, S. M., & Lee, S. I. (2017). A unified approach to interpreting model predictions. Advances in Neural Information Processing Systems, 30, 4765-4774.

Molnar, C., Casalicchio, G., & Bischl, B. (2020). Interpretable machine learning–a brief history, state-of-the-art and challenges. In Joint European Conference on Machine Learning and Knowledge Discovery in Databases (pp. 417-431). Springer.

Owen, A. B., & Prieur, C. (2017). On Shapley value for measuring importance of dependent inputs. SIAM/ASA Journal on Uncertainty Quantification, 5(1), 986-1002.

Ribers, M. A., & Ullrich, H. (2020). Machine prediction of antibiotic resistance: Advancing disease diagnosis and treatment. Scientific Reports, 10(1), 18457.

Scornet, E. (2020). Trees, forests, and impurity-based variable importance. arXiv preprint arXiv:2001.04295.

Seoane, J. A., Day, I. N., Gaunt, T. R., & Campbell, C. (2014). A pathway-based data integration framework for prediction of disease progression. Bioinformatics, 30(6), 838-845.

Shapley, L. S. (1953). A value for n-person games. Contributions to the Theory of Games, 2(28), 307-317.

Shrikumar, A., Greenside, P., & Kundaje, A. (2017). Learning important features through propagating activation differences. International Conference on Machine Learning, 3145-3153.

Song, L., Langfelder, P., & Horvath, S. (2017). Random generalized linear model: A highly accurate and interpretable ensemble predictor. BMC Bioinformatics, 14(1), 5.

Steele, A. J., Denaxas, S. C., Shah, A. D., Hemingway, H., & Luscombe, N. M. (2018). Machine learning models in electronic health records can outperform conventional survival models for predicting patient mortality in coronary artery disease. PloS ONE, 13(8), e0202344.

Strobl, C., Boulesteix, A. L., Kneib, T., Augustin, T., & Zeileis, A. (2008). Conditional variable importance for random forests. BMC Bioinformatics, 9(1), 307.

Strobl, C., Boulesteix, A. L., Zeileis, A., & Hothorn, T. (2007). Bias in random forest variable importance measures: Illustrations, sources and a solution. BMC Bioinformatics, 8(1), 25.

Štrumbelj, E., & Kononenko, I. (2014). Explaining prediction models and individual predictions with feature contributions. Knowledge and Information Systems, 41(3), 647-665.

Sundararajan, M., Taly, A., & Yan, Q. (2017). Axiomatic attribution for deep networks. International Conference on Machine Learning, 3319-3328.

Virgolin, M., De Lorenzo, A., Medvet, E., & Randone, F. (2022). Learning and visualizing region-based counterfactual explanations for pneumonia detection in chest x-rays. arXiv preprint arXiv:2206.03999.

Wachter, S., Mittelstadt, B., & Russell, C. (2018). Counterfactual explanations without opening the black box: Automated decisions and the GDPR. Harvard Journal of Law & Technology, 31(2), 841-887.

Wiegreffe, S., & Pinter, Y. (2019). Attention is not not explanation. Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing, 11-20.

Williamson, B. D., Gilbert, P. B., Carone, M., & Simon, N. (2020). Nonparametric variable importance assessment using machine learning techniques. Biometrics, 77(1), 9-22.

Williamson, B. D., Gilbert, P. B., Simon, N. R., & Carone, M. (2021). A unified approach for inference on algorithm-agnostic variable importance. Journal of the American Statistical Association, 1-14.

Xia, Y., Liu, C., Li, Y., & Liu, N. (2017). A boosted decision tree approach using Bayesian hyper-parameter optimization for credit scoring. Expert Systems with Applications, 78, 225-241.

Zeiler, M. D., & Fergus, R. (2014). Visualizing and understanding convolutional networks. European Conference on Computer Vision, 818-833.

Zhang, L., & Janson, L. (2020). Floodgate: Inference for model-free variable importance. Journal of Machine Learning Research, 21(191), 1-32.

Zhu, S., Patel, D., Shen, C., Lu, D., & Jiang, D. (2019). Variable importance integrating network incorporating both direct and indirect relationships. Journal of Biomedical Informatics, 93, 103163.