2.2 定义隐私数据分析
在数据分析的背景下可以这样定义隐私,即:要求分析人员在分析完成后对数据集中的任何个人的了解不超过分析开始前的了解。这一目标的形式化也是很自然的,要求对手对个人的前后认知(即访问数据库之前和之后的认知)不应该“差别过多”,或者对数据库的访问不应该“过多”地改变对手对任何个人的认知。如果数据库能提供任何信息,那么这种隐私的概念是不可能实现的。例如,假设对手的先前的错误认知是每个人都有2个左脚。对统计数据库的访问告诉我们,几乎每个人都有一只左脚和一只右脚。攻击者现在每个人是否有两个左脚持完全不同的看法。
(上段中‘前后认知’原文为‘prior and posterior view’,此处我将其理解为攻击者对个人的描述与认识。故将其翻译为认知。)
第一段中对隐私的定义即“查询前后对任何个体的认知差别足够小(nothing is learned)”,这种定义方法具有一部分吸引力,是因为如果对个人什么都没学到,那么分析就不会伤害到个人隐私。然而,“吸烟导致癌症”的例子表明,这种定义是有缺陷的,罪魁祸首是辅助信息(X先生吸烟)。
这种用 “nothing is learned” 定义隐私的方法让人想起密码系统的语义安全性。粗略地说,语义安全性是指从密文中学不到任何关于明文的信息。也就是说,在看到密文之后,关于明文的任何已知信息在看到密文之前都是已知的。因此,如果有辅助信息说密文是“dog”或“cat”的加密,则密文不会泄漏有关“dog”或“cat”中的哪个已加密的更多信息。形式上,这是通过比较窃听者猜测“狗”和“猫”中哪个被加密的能力与攻击者模拟器(保护者对攻击者进行模拟)的猜测狗”和“猫”能力进行建模的,但这里攻击者模拟器只具有辅助信息,无法接触到密文。如果对于攻击者以及所有辅助信息(对手和模拟器都是私有的),对手模拟器与窃听者的猜测几率基本相同,则系统享有语义安全性。当然,为了使系统有用,合法的接收者必须能够正确地解密消息。否则,语义安全就可以轻松实现。
(个人理解:此处作者将 “nothing is learned” 这种隐私定义的方法与密码学“语义安全”做类比,密码系统中可暴露的密文与隐私保护发布的数据类似,对于窃听者(攻击者)相当于是完全可接触的。这就要求隐私系统与密码系统一样,拥有防范攻击者拥有辅助信息进行攻击的能力(背景知识攻击)。上文提到“窃听者和攻击者模拟器猜测几率是相同的”这一要求,表明了即使攻击者获取得到密文(发布的数据),并且攻击者有辅助信息的情况下,其猜测得到结果的概率与没有得到密文(发布的数据)猜测的结果一样。简单来说,攻击者只能用先验知识瞎猜,无法通过查询的信息得到后验知识。这样保证了攻击者想通过发布的数据得到个体的隐私数据是无用的。)
我们知道,在标准的计算假设下,语义安全的密码系统是存在,那么为什么我们不能构建语义安全的私有数据库机制,这种机制能保持单行秘密的同时得到查询的答案?
首先,这个类比并不完美:在一个语义安全的密码系统中,有三个方面:消息发送者(加密明文消息的人)、消息接收者(解密密文的人)和窃听者。相比之下,在隐私数据分析的设置中,只有两个方面:管理者(类似于发送者)和数据分析者,这种数据分析者包括两种:1)接收对查询的信息响应(如合法接收者)2)试图从数据中获取对个人隐私有危害的信息(如窃听者)。由于合法接收者与窥探对手是同一方,因此与加密的类比存在缺陷:拒绝向对手提供所有信息意味着拒绝向数据分析者提供所有信息。
第二,和加密方案一样,我们要求隐私机制是有用的,这意味着它教给分析师一些她以前不知道的东西。这种教学对攻击者模拟器是不可用的;也就是说,攻击者模拟器不能“预测”分析员所学的知识。因此,我们可以将数据库视为随机(不可预测)的弱数据源,从中我们可以提取一些非常高质量的随机性,用作随机密码本(random pad)。这可以用于一种加密技术,在这种技术中,将秘密消息添加到一个随机值(“random pad”)中,以便生成一个字符串,该字符串的信息理论上隐藏了秘密。只有知道随机密码本的人才能知道这个秘密;对密码本一无所知的任何一方对这个秘密都一无所知,不管他或她的计算能力如何。给定对数据库的访问权限,分析员可以学习随机密码本,但是攻击者模拟器,没有给定对数据库的访问权限,对密码本一无所知。因此,将随机密码本加密秘密作为辅助信息,分析者可以解密秘密,但是攻击者模拟器对秘密一无所知。这导致攻击者/分析师学习秘密的能力和对手模拟器做同样事情的能力之间存在巨大差异,消除了任何远程类似语义安全的希望。
(个人理解:语义安全与隐私保护存在差异,无法完全类比,其一是因为密码系统是存在三方角色,而在隐私保护系统中,攻击者与分析者的角色对数据发布方来说是等同得到,这就造成了类比差异。其二,原因有待进一步理解。)
对于上述吸烟的导致癌症和隐私保护的类语义安全性两个例子来说,最大的障碍是攻击者拥有辅助信息。显然,即使在“合理”的辅助知识的背景下,隐私保障也必须保持,但把合理的辅助知识从实际的辅助知识中分离是有问题的。例如,使用政府数据库的分析师可能是一家大型搜索引擎公司的员工。什么“合理”假设的辅助知识信息能提供给这样的人?
(个人理解:允许额外的辅助信息的存在,但如何区别和量化这一合理性是个问题。对于本节,理解上仍然存在很多问题需要不断理解和修改。)