1.1 隐私保护的数据分析
差分隐私是针对隐私保护数据分析问题而提出的一种隐私定义。我们简要地讨论了解决隐私保护的其他方式的一些问题(个人认为:此处的其他方式应该是:属性隐藏、匿名、少量数据等隐私保护方式)。
数据不能完全匿名并且仍然有用
一般来说,数据越丰富,就越有趣和有用。这就产生了“匿名化”和“删除可识别个人信息”的概念,这些概念希望部分数据记录可以被掩盖,其余部分可以发布并用于分析。
然而,由于数据的丰富性使得“个人”数据属性可能与其他领域的数据属性相重合,比如邮政编码、出生日期和性别的组合,甚至三个电影的名字和一个独立的人观看这些电影的大致日期。这种“命名”功能可用于联动攻击,以将不同数据集中的“匿名”记录与非匿名记录进行匹配。有如下两个事例:
1.通过将匿名医疗遭遇数据与(公开提供的)选民登记记录相匹配,确定了马萨丘塞特政府的医疗记录。
2.通过与互联网电影数据库(IMDB)的链接,确定了 Netflix 用户,其观看历史记录包含在 Netflix 发布的匿名电影记录集合中,作为推荐竞赛的训练数据。
差分隐私能中和联动攻击:因为差分隐私是数据访问机制的一个属性,并且与对手可用的辅助信息(背景知识)的存在或不存在无关,访问 IMDb 用户数据将不能对存在 Netflix 训练集中的用户数据进行联动攻击,换言之,攻击在数据集中的用户成功的可能性不会超过不在数据集中的用户。
重标识“匿名”记录并非唯一风险
“匿名”数据记录的重新标识显然是不可取的,这不仅是因为重新标识本身(这肯定揭示了数据集中的成员身份),而且还因为记录可能包含损害信息,如果它与个人相关联,则可能会造成损害。在给定日期从特定紧急护理中心收集的医疗遭遇记录可能只列出少量不同的投诉或诊断。邻居在相关日期访问设施的附加信息给出了邻居病情的一系列可能诊断结果。可能无法将特定记录与邻居匹配这一事实为邻居提供了最低限度的隐私保护。
个人理解:此处的重标识“匿名”记录应该指的是上一小节中通过其他数据集共有属性对匿名数据进行标识。个人认为此处的邻居诊断例子是指,通过关联特定信息,虽然无法确切知道这个人患了什么病,但却缩小了其患病的种类,排除了多余信息,这样是否是种变相的隐私泄露?因为这样只能提供很小的隐私保护。
不具有保护性的大数据集查询
对于特定个体的查询无法准确地得到安全的回答,事实上,人们可能希望直接拒绝他们(如果在计算上无法识别他们)。但如下面的差分攻击所示,强迫查询超过大型集并不是万能的。假设攻击者已知X先生在某个医学数据库中。综上所述,这两个大问题的答案是 :
1.“数据库中有多少人具有镰状细胞特征?”
2.“数据库中除了X外,还有多少人有镰状细胞的特征?”
通过这两个数据查询得出数据,交出X先生是否有镰状细胞特征。
个人理解:如果某种查询是不允许针对特定个人(这里指的是X)进行查询,只能针对大规模数据统计类查询,这种数据发布的方式也是不具有保护性的,能通过差分攻击攻击得到隐私数据,如标题所示,对大数据集的查询不具有保护性。
查询审查存在的问题
查询审核有问题。如果根据历史记录,回答当前的查询会损害隐私,那么人们可能会倾向于审查查询和响应的序列,以阻止任何响应。例如,审核员可能在寻找可能构成差分攻击的成对查询。这种方法有两个困难。首先,拒绝回答一个问题本身就有可能被披露。第二,查询审计在计算上是不可行的;事实上,如果查询语言足够丰富,则甚至不存在算法过程来判断一对查询是否构成差分攻击。(审核、防止差分攻击语句是不现实的)
“不安全”的摘要统计
在某种意义上,将摘要统计作为隐私解决方案是失败的,是直接来自上述差分攻击。摘要统计的其他问题包括针对数据库的各种重建攻击,数据库中每个人都有一个要保护的“秘密位”。有用性目标可以是允许,例如,形式的问题“满足属性 p 的多少人具有秘密比特值 1 ?”。另一方面,对手的目标是增加猜测个人秘密的机会。第 8.1 节中描述的重建攻击显示了即使是这种类型的线性查询数也难以保护:除非引入足够的不精确性,否则几乎所有的秘密比特都可以重建。
公布汇总统计数据的风险的一个显著例证是,应用统计技术,最初是为了确认或驳斥个人 DNA 在法医学混合物中的存在,以裁定个人是否参与全基因组关联研究。根据人类基因组计划的一个网站,“单核苷酸多态性”(SNPs,发音为“snips”)是当基因组序列中的单核苷酸(A、T、C或G)改变时发生的 DNA 序列变异。例如,一个 SNP 可能会改变 AAGGCTAA 到 ATGGCTAA 的 DNA 序列。“在这种情况下,我们说有两个等位基因:A 和 T。对于这样一个 SNP,我们可以问,给定一个特定的参考群体,这两个可能等位基因的频率是多少?考虑到参考群体中 SNP 的等位基因频率,我们可以研究这些频率对于有特定疾病的亚群(即“病例”组)可能有什么不同,寻找与疾病相关的等位基因。因此,全基因组关联研究可能包含大量snp病例组的等位基因频率。根据定义,这些等位基因频率只是聚合的统计数据,而(错误的)假设是,通过这种聚合,它们保留了隐私。然而,考虑到个体的基因组数据,理论上有可能确定个体是否属于病例组(并且,因此,有疾病)。作为回应,国家卫生研究院和 Wellcome信托基金终止了公众从他们资助的研究中获取总频率数据的途径。
(受制于相关知识缺失,未能理解此段重建攻击和 DNA 事例,需要对第 8.1 节进行了解)
这是一个具有挑战性的问题,即使是对于差分隐私,因为涉及到大量的——数十万甚至一百万——测量,这些测量包含和关联了大群体中的小数量的个体。
长期的事实并不“好”
如果一个数据主体随着时间的推移而被跟踪,那么揭露数据个体长期的行为(例如购买面包)可能会有问题。举个例子,假设某人,他年复一年地定期买面包,直到突然转向很少买面包。一位分析师可能会得出结论,某人很可能被诊断为2型糖尿病。分析员可能是正确的,也可能是不正确的;不管怎样,某人的隐私都会受到伤害。
(此处原文为Ordinary Fact,根据下文内容来看,更应该表示为一种长期的普遍性结果,故将其翻译为“长期”)
“少数人”原则
在某些情况下,一种特定的技术实际上可以为数据集的“典型”成员提供隐私保护,或者更普遍地说,为“大多数”成员提供隐私保护。在这种情况下,人们经常听到这样的说法,即这种技术是足够的,因为它损害了“少数”参与者的隐私。撇开那些对隐私最重要的人来说可能是离群者这一担忧不谈,“少数人”原则在本质上并不是没有价值的:需要做出社会判断,权衡成本和收益。一个清晰的隐私定义与“少数人”的理念相一致,但还没有发展出来;但是,对于单个数据集,“只有少数”的隐私可以通过随机选择行的子集并将其全部释放来实现(引理4.3,第4节)。抽样界限描述了统计分析的质量,可以在随机子样本上执行,它控制要释放的行数。当“少数人”的原则被拒绝时,差分隐私提供了另一种选择。
(个人理解为离群点更容易遭受差分攻击,需要在之后深入理解)