什么是数据分析?
存在多种不同的数据分析技术。
结构发现
结构发现数据分析是一种确保数据库中所有数据保持一致性的策略。它会检查特定字段中的所有数据,以验证其格式是否正确,并且是否与该字段中所有其他条目保持结构一致。例如,结构发现可能会验证列表中所有手机号码的位数是否一致,并对存在缺失或不兼容值的号码进行标记。
内容发现
内容发现数据分析是一种查找数据中任何系统性问题的策略。这些错误可能表现为数据库中个别元素的数值错误或结构不当。
关系发现
关系发现数据分析会追踪不同数据集之间的连接方式、与其他数据集的交互使用情况,以及数据集之间的重叠关系。这种分析方式首先检查元数据,以确定数据集之间最突出的关系,随后聚焦字段间的连接线索,从而呈现更全面的关系视图。
元数据发现
元数据发现数据分析通过评测数据的元数据,将其与预期结构进行比对。它检查数据的行为和运行是否符合预期。例如,如果某个字段本应为数值字段,却接收到按字母顺序排列的响应,元数据发现功能会将此差异标记为错误,以供进一步审查。
基于字段的分析
基于字段的分析是一种通过检查数据类型和特征是否匹配以识别单个字段中数据质量问题的策略。这种方法有助于识别数据中的不一致之处或任何可能导致数据偏差的异常值。
多字段分析使用类似策略,以理解两个不同字段之间的关系。这也称为跨字段分析或跨表分析,用于验证两个字段的数据相互依赖时是否兼容。例如,可验证客户地址列表中的州是否与相应的邮政编码匹配。