data fusion についてのメモ

ちょっと昔のメモを整理がてら公開しておく。

データ融合(data fusion)という手法がある。
例えば、「ある特定の性質を有する製品を、ある特定のターゲットがどれくらい購入するか」といった問題に対して、「広告接触の変数」と「購買の変数」が同一対象者から得られているシングルソースデータがあればそれを使えばいいだけの話だが、現実にはそうはいかない。なんとなく属性が似た別人のデータが複数ある、つまりマルチソースデータがばらばらっとあるだけ、というのが普通である。
このマルチソースデータを「のりしろ」となる共通項目で結合する手法がデータ融合である。

もっとわかりやすく詳細な説明はhttp://www.respo.provost.nagoya-u.ac.jp/research/dat/016hoshino.html/:名古屋大学星野先生の紹介を参照のこと。

以下メモ書き。

内容

  1. 参考文献
  2. データ融合の際の前提条件
  3. データの融合方法について
  4. 結合の精度評価

参考文献

日本語の教科書はこちら。

英文でよくまとまった文献はこちら
http://www.liacs.nl/~putten/library/phdthesisv1_nocropmarks_withISBN.pdf

データ融合の際の前提条件

購買履歴データと広告接触データの2つのデータを融合したいとする。
前者のみにある変数は「ある商品を買ったかどうか(購買有無)」、後者のみにある変数は「広告をみたかどうか(広告接触有無)」であり、それ以外の変数(性、年齢、好きなテレビ番組)は共通であるとする。

このようなデータを融合する際、下記2つの条件が満たされている必要がある

  1. 条件付き独立
    • 共変量を条件付けた場合には各目的変数(「購買有無」と「広告接触有無」」)は独立になる。つまり性、年齢、好きなテレビ番組が同様の層においては各目的変数に関連は認められない。
  2. ランダムな欠測
    • 目的変数の欠測がランダムである→購買履歴データには男女の両方のデータが含まれているのに広告接触データには男性のデータしか含まれていない、というような偏りがない。

データ融合方法について

融合方法として挙げられているのは以下の4つ。
4は近年提案されている方法である。
以下概要と問題点、解決法について述べる。

  1. マッチング
  2. 潜在変数モデリング
  3. 回帰モデル
  4. セミパラメトリックモデル
マッチング
  • 融合するデータの両方で測定されている共変量で「近くなる」データをペアにして融合する。
  • 「近さ」を算出する方法はK近傍法、クラスタリングなど。
  • 最も近いデータのみ用いると共変量の分布が元の値と異なるので、制約付き(重み付けした)マッチングを行う。この場合マッチングは一対一ではなく多対多となる。
マッチングの問題点
  • 推定精度が高くない可能性
    • 相関係数等の希薄化を共変量を増やすことで防ぐ(共変量は傾向スコアでまとめるとよい)
  • マッチングに利用しない対象者データが無駄になる
  • 確率的な変動を考慮できず統計的な性質が明確ではない
    • リサンプリング、多重代入法
  • 個人情報を復元できる可能性
    • 医療データに適用する際はこの点注意
潜在変数モデリング

「対象者は直接は観測されない区分によって複数の潜在クラスに分かれており、各潜在クラス内では対象者は等質である」という潜在クラスモデルを仮定し、それを共変量としてデータを融合させる。

潜在変数モデリングの問題点

(記述なし)

パラメトリック回帰モデル
  • 回帰モデルで共通項目から目的とする欠測変数を直接推定
  • ロジスティック回帰が使われる
回帰モデルの問題点
  • ロジスティック回帰による推定精度が低い
セミパラメトリックモデル
セミパラメトリックモデルの問題点

(記述なし)

結合の精度評価

internal validationとexternal validationがある。

internal validation

データ融合の一致度を評価するものである。まずはこの結果を良くすることを目的とする。

external validation

データ融合させて作ったデータで当初の目的(冒頭の例でいえばターゲットの購買行動の予測精度など)をどの程度達成できたかで評価する。

所感

手軽さでいえば、融合したいデータのそれぞれでクラスタリングを行って一致させるという方法が一番だし、実際広告代理店等で実用化されている。
まずはここから始めて精度を確かめてから各手法を比較していきたい。