一、差分隐私的承诺
差分隐私 描述了数据持有者对数据主体的承诺:“无论您将数据用于任何研究或分析,都不会受到不利影响或其他影响。” 差分数据库机制可以使机密数据广泛用于准确的数据分析,而无需诉诸数据清洗,数据使用协议,数据保护计划,或其他受限方面。但是,保证隐私性的同时,将消耗数据实用性:《信息恢复基本法》指出,对太多问题的过于准确的回答将以一种惊人的方式破坏隐私。关于差分隐私的算法研究的目标是将这种不可避免性推迟尽可能长的时间。
差分隐私解决了一个问题,即分析人员通过数据集学习整体信息的同时(趋势、统计信息),无法获取个人的详细信息。
医学数据库可能会告诉我们,吸烟会导致癌症,影响保险公司对吸烟者长期医疗费用的看法。吸烟者受到分析的伤害了吗?如果保险公司知道他吸烟,他的保险费可能会上涨。他可能也会得到帮助。但保险公司学习他的健康风险,使他进入戒烟计划。吸烟者的隐私被侵犯了吗?当然,研究结束后对他的了解比以前更多,但他的信息是不是“泄露”了?差分隐私将认为它不是,理由是对吸烟者的影响是相同的独立于他是否在研究中。是这项研究得出的结论影响了吸烟者,而不是他在数据集中的存在与否影响了实验得出的结论。
差分隐私在满足隐私保护需求下,同时保证了分析数据集能得出相同的结论,例如,吸烟会导致癌症,这与是否有人的数据选是否在数据集中无关。具体地说,任何个体的存在或不存在这个数据集中,差分隐私能确保输出(对查询的响应)在“本质上”发生的概率是相同的。这里,概率被差分隐私机制(由数据持有者控制)所做的随机选择所取代,这里术语“本质上”被抽象为参数 。较小的 将产生更好的隐私(和更不准确的响应)。
差分隐私是一个定义,而不是一个算法。对于给定的计算任务 和给定的 值,将有许多不同的私有算法以 -差分隐私 方式实现 。有些算法会比其他算法更准确。当 很小时,很难为任务 找到一个高精度的ε-差分隐私算法,就像为一个特定的计算任务找到一个数值稳定的算法一样。