2017年1月11日水曜日

<スペクトルあれこれ>(12)マハラノビス距離とユークリッド距離


スペクトルを解析する際にマハラノビス距離をしばしば使用することがある。使用している割には、基本的な理解が欠けているかなと思いと、あらためてマハラノビス距離について見直してみた。2点間の距離を測定する際、一般的に使用するのはユークリッド距離だ。一方マハラノビス距離は、統計的な観点から距離をより一般化したものといってよい。
一次元の簡単な例を挙げる。仮に異常/正常を検査する簡易検査法があり、正常の標準値は2.5で異常の標準値は1であるとする。検査結果が1.8の場合は、ユークリッド距離を用いて、正常/異常の標準値の中間を境界(1.75)とすると、正常とみなされる。50回の検査結果について、他の方法で正常/異常を正確に調べたところ図Ar12-1となったとする。この結果からは正常/異常の境界は指標2あたりが妥当であり、1.8の検査結果は異常に分類する方が妥当であることがわかる。


これをマハラノビス距離で表したのが図Ar12-220回の正常な検査結果(指標2.46)の平均値からのマハラノビス距離を表している。異常と正常がきれいに別れ、正常/異常が明確に判別可能である。指標2はマハラノビス距離で7、1.8はマハラノビス距離で10となり異常に分類するのが妥当であることが確認できる。この場合のマハラノビス距離(MD)の計算式は12AR-1式となる。 



次にスペクトルのマハラノビス距離を考える。図Ar12-3と図Ar12-4に疑似吸光スペクトル例をしめす。図Ar12-320の疑似スペクトルの重ね書きである。図Ar12-4には図Ar12-3で示した20スペクトルの平均スペクトルと波長シフトと吸光度変化をした5スペクトルをしめした。

波長の10,15μmの吸光度を2次元のグラフにして図Ar12-5に示した。図Ar12-5では、重なりを防ぐためS2, S4の矢印を省略したが、ユークリッド距離は平均値(重心、黒丸●)からの距離を示す。一方マハラノビス距離は少し複雑な計算になる。12AR-1式は、個々のデータが独立の場合に使用できるが、スペクトルデータは一般に波長間のデータが相関を持つために12AR-1式は使用できない。多変量データに使用できる一般的なマハラノビス距離(マハラノビス汎距離)は12AR-2式で表せる。



Ar12-4のデータを使用して12AR-2式から得たマハラノビス距離とユークリッド距離を図AR12-6に示す。S1S5のスペクトルのマハラノビス距離が大きく拡大されていることが判る。この性質によりマハラノビス距離はスペクトル多変量解析においてアウトライヤー(外れ値)検知に使用される。多変量解析においてはスペクトルから直接マハラノビス距離を計算することは少なく、主成分分析などを行いその結果(スコア値)を使ってマハラノビス距離を計算しアウトライヤー検知を行うことが多い。



 


































……12AR-1