一、大数据带来的安全挑战
  1. 什么是隐私?
    狭义:个人联系方式、朋友关系信息、私人信息( 年龄、月薪、职业等 ) 。
    广义:散落在互联网各个角落的信息。eg. 搜索引擎的搜索记录、浏览器的访问痕迹、电商平台的购物记录、地图应用的搜索记录。
  2. 数据匿名化
    数据匿名化是将数据库中的部分敏感信息隐匿,使数据主体( 个人信息的属主 ) 难以被识别。数据管理者试图通过匿名数据来保护数据主体的隐私。
  3. 去匿名化
    攻击者通过将匿名记录与外部信息关联起来再识别匿名后的数据,并希望能够发现数据主体的真实身份。
二、隐私保护的概念与技术
  1. 隐私保护技术手段
    1)元组抑制
    2)属性泛化
    比元组抑制更 准确的 不确定性形式。
    3)属性置换
    比泛化更 准确的 不确定性形式。
    4)属性扰动
    能唯一识别元组,但获得有噪声的敏感属性值。

  2. K-匿名和不确定性

  • 一个 K-匿名 的表 T’ 代表所有 “可能” 表 T 的集合,使得 T’ 是 T 的一个 K-匿名。
  • 最初推导 T’ 的表 T 是所有 “可能” 表中的一个。
  • 如果没有背景知识,所有的可能表都是同等概率的。
  1. 查询应答
    查询应答:从 K-匿名 表中查询得到有用的信息,即查询应答。
    K-匿名表:
    在这里插入图片描述
    查询举例1:某人 (1/21/76,M,53715) 的工资是多少?
    答:最好的猜测是57500。 ( 50000 和 65000 的加权平均 )
    查询举例2:53706 这名女性的最高工资是多少?是同50000一样小还是同75000一样大。
    答:可使 [ 50000,75000 ] 中的 max值 作为 53706 最高工资的估计。

  2. 计算 K-匿名表

  • 基于泛化和基于元组抑制的算法
  • 基于全局(例如,全域)和基于局部(例如,多维)记录的算法
  • 基于层次和基于划分(例如,数值数据)的算法
  1. 同质性攻击
    问题出现的原因:在于分组的选择,而不在于数据
    eg. 同一数据因为分组方式的不同而带来的差异。
    存在同质性攻击
    在这里插入图片描述
  2. l - 多样性
  • l - 多样性原理:如果每个等价组包含至少 l 个 “良好表示” 的敏感值,则该表是多样的。

  • l - 多样性的不同定义 ( 如何定义 “良好表示” ? )

    • 熵 l - 多样性
      在这里插入图片描述
      熵值越大,数据越均匀,越随机;熵值越小,数据越确定。
    • 递归 (c,l) - 多样性
      在这里插入图片描述
      效果:与等价组中较不频繁的敏感值相比,最常见的敏感值不会显得太频繁。
  • 关键性质:熵 l - 多样性和递归 (c,l) - 多样性具有子集性质和泛化性质。

  • l - 多样性的算法思路:

    • 采用任何 K-匿名算法,用 l - 多样性测试替换 K-匿名性测试,若某一 K-匿名计算结果满足 l - 多样性,则算法结束。
  • l - 多样性的局限性:只能保证敏感属性值的多样性,但这些值在语义上可能相似。
    在这里插入图片描述

  1. 泛化表的查询处理
  • 例一
    例一
  • 例二
    例二
Logo

永洪科技,致力于打造全球领先的数据技术厂商,具备从数据应用方案咨询、BI、AIGC智能分析、数字孪生、数据资产、数据治理、数据实施的端到端大数据价值服务能力。

更多推荐