第57回 データサイエンスセミナー
開催日時:2019年05月21日16:30-17:30
開催場所:220室(データサイエンス棟2階)
寺田 雅之氏 (株式会社NTTドコモ 先進技術研究所 主任研究員)
題 目:「差分プライバシーと大規模高次元データへの適用」
概要:
ビッグデータやAI技術への注目の高まりが示すように、さまざまなデータを活用することにより社会や産業、そして私たちの生活を豊かにする知見を得られるようになることが期待されている。その一方、それらのデータは往々にして個人のプライバシーを含み、その取り扱いには法的・社会的に厳しい制約や責任が求められる。
そこで、プライバシーを保護しながら安全にデータを活用するための技術、すなわちプライバシー保護技術が重要となる。プライバシー保護技術は、データに含まれる個人に関する情報を開示することなく(安全性の保証)、さまざまな知見を得るために必要となるデータの性質や特徴を得ること(有用性の確保)を目的とする。
一般に、上記の安全性と有用性はトレードオフの関係にあり、どの程度の安全性を与えた場合にどの程度の有用性を得られるかはプライバシー保護技術ごとにそれぞれ異なる。つまり、十分な安全性を適切に保持したうえで、より高い有用性を備えたデータを出力できる方式が優れたプライバシー保護技術であるといえる。
しかし、出力されたデータの安全性が十分に保持されているかどうかを適切に測るための物差し、すなわち安全性指標をどう定義するのが良いかは自明ではない。たとえば特定の攻撃のみに対する安全性を想定して構築された安全性指標は、「想定外」の攻撃により深刻なプライバシー開示を起こしうる。
差分プライバシー(differential privacy)はこのような課題を背景として提唱された、プライバシー保護の安全性を網羅的に定義するための指標である。2016年6月にApple WWDCにおいてiOS 10への採用が表明されたほか、米国の国勢調査局(Bureau of the Census)がその適用に向けた検討を進めるなど、いまでは実用に向けた取り組みも広く進められつつある。
本講演では、プライバシー保護に関する安全性を評価することの難しさについて具体的な事例を交えながら議論したうえで、差分プライバシーの定義、および定義が意味するところを説明するとともに、差分プライバシー適用の一例として、大規模な高次元データに対して差分プライバシーを適用する上で実用上の障害となる、非負制約や総数制約の逸脱を解決するための手法について紹介する。