4.2.2 数值稀疏向量可乘权重算法

现在,我们可以将可乘权重更新规则与 NumericSparse 算法结合起来,以提供交互式查询发布机制。对于 (ε,0)(\varepsilon,0) 隐私,我们实质上(使用一些较差的常数)恢复了 SmallDB 的边界 对于(ε,δ)(\varepsilon,\delta)- 差分隐私,我们能够使用组合定理来获得更好的边界。 对 NumericSparse 的查询询问的是 fi(x)f_i(x) 所给出的误差大小是否在适当选择的阈值 TT 之上,即通过将 fif_i 应用于当前近似值 xtx_txx 来估计 fi(x)f_i(x) 的误差。也就是说,这些查询询问 f(x)f(xt)|f(x)-f(x_t)| 的值是否大于阈值。出于技术原因(无绝对值),这是通过询问 f(x)f(xt)f(x)-f(x_t)f(xt)f(x)f(x_t)-f(x) 来完成的。回想一下,NumericSparse 算法的响应是 \bot 或某些超过 TT 的正值。我们将助记符 EE 用于响应,以强调查询正在询问错误。

定理 4.13 在线数值稀疏向量可乘权重算法机制 The Online Multiplicative Weights Mechanism (via NumericSparse)(ε,0)(\varepsilon,0)- 差分隐私的。

MW-NumericSparse

【证明】NumericSparse 算法的隐私分析即可证明该定理,因在线数值稀疏向量可乘权重算法机制仅通过 NumericSparse 算法访问数据库。

【定理 4.13 证毕】

大体上说,数值稀疏向量可乘权重算法的效用证明是使用 NumericSparse 的效用定理 定理 3.28 得出的。其结论为:仅当查询 ftf_t 是真正有区别的查询时,可乘权重更新规则才被调用,这意味着 ft(x)f(xt)|f_t(x)-f(x_t)| 的值是“大”的,并且发布的噪声响应是足够“精确地”近似 ft(x)f_t(x)。有了这些假设之后,我们可以应用收敛定理(定理 4.10)来得到结论:权重更新的总次数是小的,因此算法可以回应所有 Q\mathcal{Q} 的查询。

定理 4.14 对于 δ=0\delta=0 且概率至少为 1β1-\beta,对于所有查询 fif_i,数值稀疏向量可乘权重算法返回答案 aia_i,使得 fi(x)ai3α|f_i(x)-a_i| \leq 3\alpha 对于任何 α\alpha 有:

α32logX(logQ+log(32logXα2β))εα2x1 \alpha \geq \frac{32\log|\mathcal{X}|\Big(\log|\mathcal{Q}|+\log(\frac{32\log|\mathcal{X}|}{\alpha^2\beta})\Big)}{\varepsilon\alpha^2\Vert x\Vert_1}

【证明】

通过优化上述表达式的 α\alpha 并去除归一化因子,我们发现 数值稀疏向量可乘权重算法 可以将每个线性查询的准确度设为 3α3\alpha,且概率为 β\beta。有:

αx12/3(36logX(logQ+log(32logX1/3x12/3β))ε)1/3 \alpha \leq \Vert x \Vert_1^{2/3} \Bigg( \frac{36\log|\mathcal{X}|\Big(\log|\mathcal{Q}|+\log(\frac{32\log|\mathcal{X}|^{1/3}\Vert x \Vert_1^{2/3}}{\beta})\Big)}{\varepsilon}\Bigg)^{1/3}

与 SmallDB 算法相当。

通过重复同样的论点,但是使用稀疏向量的 (ε,δ)(\varepsilon,\delta)-差分隐私的效用定理(定理 3.28 ),我们得到了以下定理:

定理 4.15 对于 δ>0\delta>0 且概率至少为 1β1-\beta,对于所有查询 fif_i,数值稀疏向量可乘权重算法返回答案 aia_i 满足 fi(x)ai3α|f_i(x)-a_i| \leq 3\alpha,对于任何 α\alpha 有:

α(2+322)logXlog2δ(logQ+log(32logXα2β))εα2x1 \alpha \geq \frac{(2+32\sqrt{2})\sqrt{\log|\mathcal{X}|\log\frac{2}{\delta}}\Big(\log|\mathcal{Q}|+\log(\frac{32\log|\mathcal{X}|}{\alpha^2\beta})\Big)}{\varepsilon\alpha^2\Vert x\Vert_1}

再次优化上述表达式的 α\alpha 并去除归一化因子,我们发现 数值稀疏向量可乘权重算法 可以将每个线性查询的准确度设为 3α3\alpha,且概率为 β\beta。有:

αx11/2((2+322)logXlog2δ(logQ+log(32x1β))ε)1/2 \alpha \leq \Vert x \Vert_1^{1/2} \Bigg( \frac{(2+32\sqrt{2})\sqrt{\log|\mathcal{X}|\log\frac{2}{\delta}}\Big(\log|\mathcal{Q}|+\log(\frac{32\Vert x \Vert_1}{\beta})\Big)}{\varepsilon}\Bigg)^{1/2}

这比 SmallDB 算法提供了更好的精度(作为 x1\Vert x \Vert_1 的函数)。直观地说,更高的精度来自算法的迭代性质,这允许我们利用 (ε,δ)(\varepsilon,\delta)-隐私合成定理。SmallDB 算法只运行一次,因此没有机会利用合成定理的特点。

数值稀疏向量可乘权重算法 的准确性取决于几个参数,值得进一步讨论。最后,该算法使用稀疏矢量技术与线性函数的学习算法配对来回答查询。正如我们在上一节中所证明的那样,当总共进行了 kk 个灵敏度w为 1/x11/\Vert x\Vert_1 的查询,且这些查询中最多 cc 个可以具有 “高于阈值” 的答案。回想一下,这些误差项的出现是因为稀疏向量算法只能为 “高于阈值” 的查询“支付”隐私预算,因此会增加噪声 O(c/(εx1))O(c/(\varepsilon\Vert x \Vert_1)) 到每个查询。另一方面,由于我们最终将尺度范围为 Ω(c/(εx1))\Omega(c/(\varepsilon \Vert x \Vert_1)) )的独立拉普拉斯噪声添加到总共 kk 个查询中,因此我们期望表示所有 kk 个查询的最大误差都比 logk\log k 因子大。但是 cc 为多少,我们应该问什么查询呢?可乘权重学习算法为我们提供了一种查询策略,并保证了 c=O(logX/α2)c=O(\log |\mathcal{X}|/\alpha^2) 查询对于任何 αα 都将高于 T=O(α)T = O(\alpha) 的阈值(我们要求的查询始终是:“实际答案与当前可乘权重假设所预计答案有多少不同?这些问题的答案既为我们提供了查询的真实答案,又为您提供了当查询高于阈值时如何适当更新学习算法的说明。综上,这使得我们将阈值设置为 O(α)O(\alpha),其中 αα 是满足的表达式:α=O(logXlogk/(εx1α2))\alpha=O(\log|\mathcal{X}|\log k/(\varepsilon\Vert x \Vert_1\alpha^2)) 。这样可以最大程度地减少两种误差来源:稀疏矢量技术的误差和未能更新乘法权重假设的误差。

Copyright © GuoJohnny 2019 all right reserved,powered by Gitbook修订时间: 2019-12-20 08:46:58

results matching ""

    No results matching ""