Page 1 of 1

我想展示创建一套足够可靠的规则

Posted: Thu Jan 30, 2025 7:03 am
by suchona.kani.z
在接下来的两节中所面临的挑战

1:识别敏感内容非常复杂
重点是保护敏感的个人数据。在银行,这些数据主要是结构化的——例如账户、信用卡和客户号码。然后,软件工具就可以轻松识别这些内容。这使得银行使用 DLP 工具在技术和组织上都相对容易。在保险环境中情况看起来有所不同。对于健康保险公司来说,敏感的客户数据有多种形式,而且通常是非结构化的。通常是不同信息的组合决定了“敏感”和“不敏感”之间的区别。

想象一下,一封电子邮件被暴露,该电子邮件通过姓名识别客户,但不包含任何敏感数据。这可能是不可取的,但对受影响的人造成的伤害可能很小。例如,如果同一封电子邮件中提到了抗癌药物,事情就会变得更加棘手。这可能有助于对有关人员的高度敏感和私人信息得出结论。因此,工具必须能够结合提及的药物来识别客户识别特征(在本例中为客户姓名)。

但现在的情况是,不仅有一种特定的药物,而且还有令人困惑 法律信息销售 的各种活性成分、产品名称、剂量及其组合。除了针对某些疾病的药物之外,还有诊断、治疗、医生、诊所或其他可以得出结论的机构。所有这些可能的组合都必须由工具识别。

另一个例子:案例管理员工向客户发送电子邮件,并且该电子邮件被公开。电子邮件本身是无害的;例如,案例经理会询问客户的情况。但从收件人、发件人、电子邮件签名(“案例管理”)和无害内容的组合来看,未经授权的读者会立即清楚这是由健康保险公司的案例管理支持的客户。

即使不清楚为什么相关客户有权获得案例管理的支持,披露这一事实已经很敏感。也许收件人甚至是政治人物?相反,并非每封包含“案例管理”一词的电子邮件都自动值得保护。众所周知,“案例管理”一词可以作为敏感内容的标准,但并非必须如此。这种见解没有附加价值,因为不能从中导出规则集的严格标准。

另一个挑战:如何区分空白健康声明和手写健康声明?前者是无害的,但后者可能包含高度敏感的信息。条件是计算机可以读取人类的笔迹,但这绝不是保证。

在我们客户项目中的许多研讨会的过程中,我们确定不可能定义全面且有意义的搜索标准。这是由于以下原因:

一般标准导致误报率高达 90%,因此不可用。
非常具体的标准只涵盖了可能案例的一小部分。为了提供足够的保护,需要数千个精确的搜索标准。这一事实使得创建和维护这样一个工具变得相当不现实。