Синтетические наборов данных может помочь защитить конфиденциальность

Feb 20, 2019

Оставить сообщение

Синтетические сетей может увеличить доступность некоторых данных по-прежнему защищая частную жизнь отдельных лиц или учреждений, согласно статистик Penn State.


«Мой ключевой интерес в разработке методологии, которая позволила бы более широкого обмена конфиденциальных данных способом, который может помочь в научных открытий,» сказал Aleksandra Slavkovic, профессор статистики и заместитель декана для последипломного образования, колледж Эберли Наука, штата Пенсильвания. «Возможность поделиться конфиденциальной информации с минимальной количественной оценке риска для обнаружения конфиденциальной информации и по-прежнему обеспечить статистической точности и целостности, является цель.»


Slavkovic нашла пути решения этой проблемы конфиденциальности данных посредством междисциплинарного сотрудничества, особенно с компьютером и социологи. Ее исследование фокусируется на различных данных, включая данные сети, которые захватывают сведения об отношениях между субъектами таких лиц или учреждений. Она сообщила ее подходы к синтетической сетей, которые удовлетворяют понятие дифференциальной конфиденциальности сегодня (16 февраля) в 2019 ежегодного совещания Американской ассоциации по развитию науки в Вашингтоне, округ Колумбия


Дифференциальные конфиденциальности математически доказуемых гарантирует уровень конфиденциальности потерь лицам.


Ученые хотят получить доступ к данным, собранным другими лицами для их исследований, но такой доступ также может поставить под угрозу неприкосновенность личной жизни, даже после удаления так называемые личные данные.


«Обилие вспомогательных данных является основным виновником,» сказал Slavkovic. «С методологических и технических достижений в сборе данных и запись связь, легкий доступ к различных источников данных, которые могут быть связаны с набором данных в руке, и финансирование учреждений требования для обмена данными, увеличиваются риски для конфиденциальности данных. Но, найти хорошие решения для управления потери конфиденциальности необходимы для включения звука научных открытий.»


Например, публично доступной информации о ВИЧ-препарат, от наркотиков судебного разбирательства будет означать который был в группе лечения и кто был в группе управления. Группе лечения будет содержать только людей с диагнозом ВИЧ, и даже несмотря на то, что владельцы данных удерживается личные данные из этого набора данных, некоторые идентифицирующей информации останется. Потому что так много информация доступна сегодня в социальных средств массовой информации и других наборов данных, это можно соединить точки и идентифицировать людей, потенциально раскрывая их ВИЧ-статуса.


«Методы для связывания двух наборов данных, скажем избирателей записей и данных медицинского страхования, значительно улучшились,» сказал Slavkovic. «В одном из ранних выводов, Latanya Sweeny (теперь в Гарварде) показали, что путем увязки этих типов данных, можно определить 87 процентов населения в переписи США с 1990 года, основанный на их дату рождения, пол и 5-значный почтовый индекс. Совсем недавно исследователи используется чириканье и связанные метаданные Twitter, чтобы показать, что они могут идентифицировать пользователей с точностью 96,7%.»


Slavkovic отмечает, что это не только люди или учреждения, чьи данные содержатся в базах данных, но что люди вне базы данных могут также страдать от вторжения в частную жизнь, непосредственно или через ассоциации. Связей между информацией в наборе данных и информации о социальных средств массовой информации может привести к серьезным конфиденциальность шаровар — что-то вроде ВИЧ-статуса или сексуальной ориентации могут иметь серьезные последствия, если обнаружено.


Хотя конфиденциальность важна, собранных данных составляют важным источником информации для исследователей. В настоящее время в некоторых случаях когда данные исключительно чувствительны, исследователи должны физически идти к хранилищам данных, сделать их исследований, делая исследований более трудным и дорогостоящим.


Slavkovic заинтересована в сети данных. Информация, которая показывает взаимосвязь людей или учреждения — узлы — и соединения между узлами. Ее подход заключается в создании сети незначительно изменены, зеркальные наборы данных с несколько узлов переехал, соединения перенесен или края изменены.


«Целью является создание новых сетей, которые удовлетворяют требованиям жестких дифференциальных конфиденциальности и в то же время захватить большую часть статистических функций от первоначальной сети,» сказал Slavkovic.


Эти синтетические наборов данных может быть достаточно для некоторых исследователей, чтобы удовлетворить свои потребности в исследованиях. Для других было бы достаточно для тестирования их подходы и гипотеза до того, чтобы перейти на сайт хранения данных. Исследователи могли проверить код, сделать исследования и возможно основной анализ во время ожидания разрешения на использование исходных данных в своем сайте репозитория.


«Мы не можем удовлетворить требования для всех статистического анализа с тем же типом данных, измененных,» сказал Slavkovic. «Некоторые люди будут нужны исходные данные, но другие могут пойти длинный путь с синтетических данных таких синтетических сетей».

Отправить запрос