什么是脱敏？常见的对数据脱敏的手段有哪些？

约 1143 字大约 4 分钟

2025-03-15

一、什么是脱敏

数据脱敏（Data Masking）是指对敏感数据进行处理，使其在保留数据可用性的同时，去除或隐藏敏感信息，防止未经授权的访问和泄漏。脱敏后的数据可以安全地用于开发、测试、分析等非生产环境，避免因真实数据暴露导致的安全风险。

二、意义

保护隐私：防止个人身份信息（PII）、金融数据、医疗记录等敏感数据泄露。
合规要求：满足 GDPR、CCPA、《个人信息保护法》等法律法规对数据保护的要求。
数据可用性：确保脱敏后的数据仍能支持业务需求（如开发测试、数据分析）。

三、分类

静态脱敏
对存储的静态数据（如数据库、文件）进行脱敏处理，通常用于非生产环境。
示例：将生产数据库中的真实用户数据脱敏后，提供给测试团队使用。
动态脱敏
在数据访问时实时脱敏，根据用户权限动态隐藏敏感信息。
示例：客服人员查看用户信息时，仅显示手机号的后四位。

四、常见措施

替换（Substitution）： 用虚构的假数据替换真实数据，保持数据格式和逻辑的一致性。例如：
- 真实姓名 张三 → 替换为 李四
- 真实邮箱 zhangsan@example.com → 替换为 user123@test.com
掩码（Masking）： 隐藏部分敏感字符，仅显示部分信息。例如：
- 手机号 13812345678 → 脱敏为 138****5678
- 身份证号 110101199001011234 → 脱敏为 110101********1234
泛化（Generalization）： 降低数据精度，用模糊值替代具体值。例如：
- 年龄 28 → 泛化为 20-30岁
- 精确位置 北京市海淀区中关村大街1号 → 泛化为 北京市
随机化（Randomization）： 生成随机值替换真实数据，破坏数据的关联性。例如：
- 真实日期 1990-01-01 → 随机化为 1985-07-15
- IP 地址 192.168.1.1 → 随机化为 10.20.30.40
加密（Encryption）： 对敏感字段加密存储，仅授权用户可解密。例如：
- 密码存储为哈希值（如 sha256$abc123...）
- 银行卡号加密为密文字符串（如 AES-256-GCM 加密）
删除（Deletion）： 直接移除敏感字段。例如：
- 删除数据库中的 身份证号 或 薪资 字段。例如：
格式保留脱敏（Format-Preserving Masking）： 保持脱敏后的数据格式与原始数据一致。例如：
- 信用卡号 4111 1111 1111 1111 → 脱敏为 4111 **** **** 1111
- 车牌号 京A12345 → 脱敏为 京A***45
数据扰动（Data Perturbation）： 对数值型数据添加随机噪声，保持统计特性。
- 工资 10000 → 扰动为 9800 或 10200
- 交易金额 ±5% 的随机波动。