数据可观测性解析：概念、工具和最佳实践

urrifat77 · Post by **urrifat77** » Mon Dec 02, 2024 9:24 am

企业依靠准确的数据来做出决策，至少他们应该这样做。数据管道故障或数据不可靠可能会严重扰乱组织流程。

想象一下这样的场景：

营销团队使用客户数据来创建有针对性的广告，但由于未被注意到的数据问题，过时或不正确的信息被发送出去，甚至可能发送给错误的人。

错误可能在客户开始投诉之前不会被注意到。到那时，已经太晚了。损失已经造成——时间和金钱已经被浪费，甚至可能需要更多资源来解决后果。

数据可观测性旨在防止这种情况发生。在本文中，我们将讨论如何做到这一点。让我们开始吧！

什么是数据可观测性？
数据可观测性是指在数据通过管道和系统时监控和了解其健康状况的能力。其主要目标是确保数据保持准确、一致和可靠，以便在潜在问题造成更大问题之前发现并解决它们。

例如，如果您是销售团队的一员，并依靠每日报告来跟踪绩效并确定后续步骤，那么这些报告中的数据出现任何问题都可能影响您的整个策略。数据可观测性使您能够实时发现这些问题，修复它们，并确保一切顺利进行。

因此，数据可观测性的核心在于监控数据在不同系统中的移动，以确保其准确性和按预期流动。您所做的就是在问题影响关键决策之前发现它们。

具体来说，数据可观察性有助于：

保持数据质量：自动检测缺失或不准确的数据，使团队能够在问题导致错误决策之前解决问题。
防止数据停机：监控管道是否存在异常（例如，数量下降、模式破坏），并在中断升级之前向团队发出警报。
治理与合规：识别数据质量或安全漏洞，帮助满足GDPR或 CCPA等隐私法规。
建立对数据的信任：提供数据收集、处理和管理方式的透明度，增强决策信心。
成为一名数据工程师
通过高级 Python 学习成为数据工程师
数据可观测性的支柱
数据可观测性建立在五个关键支柱之上：新鲜度、分布、容量、模式和血统。这些支柱共同确保数据管道顺利运行，并确保数据保持准确、完整和可靠。

数据可观测性的五大支柱图表

数据可观测性的五大支柱。图片由作者提供（使用 napkin.ai 创建）

让我们详细检查每个支柱！

新鲜
新鲜度表示您的数据有多新。它跟踪数据的最后更新时间，并在数据过时时提醒您。对于依赖实时或近实时数据进行决策的团队来说，这一支柱非常重要。

示例：假设零售商根据实时销售数据调整库存水平。如果数据没有及时更新，公司可能会出现库存过多或过少的情况。新鲜度有助于防止这种情况发生，因为它可以确保决策基于最新信息。
分配
分布是指跟踪数据中的模式和特定值（例如平均值、中位数、标准差等）。监控这些值有助于发现异常情况，这可能是数据质量问题的征兆。定期检查分布可确保数据在一段时间内保持一致。

示例：在线平台可能会分析客户参与度指标。为了检查一致性，他们可能会监控会话时长、转化率等指标的数据分布。这些指标的突然上升或下降可能表示数据收集过程存在问题或潜在的系统错误。
体积
数据量是指流经系统的数据量。跟踪此指标可确保预期的数据量被提取和处理，且不会出现任何意外下降或激增。监控数据量可快速检测数据缺失或管道瓶颈等问题。

示例：一家依赖车队 GPS 数据的物流公司会监控正在传输的位置数据量。如果数据量意外下降，则可能表明某些车辆出现通信故障，从而导致跟踪出现漏洞。
架构
架构可观测性可跟踪数据的结构 — 重要的是，它必须随时间保持一致。当您的架构意外更改时，它可能会破坏您的数据管道并导致处理错误。

示例：假设您的营销团队按年龄和位置细分客户。为了防止数据管道中断，您的团队需要确保对架构的更改（例如，重命名列、更改数据类型等）不会导致报告系统出现错误。任何未被注意到的更改都可能导致客户细分出现缺陷。
血统
谱系可以清晰地展示数据来源、数据转换方式和最终结果。这对于排除故障和维护复杂系统中的数据质量至关重要。当出现问题时，谱系可让您通过管道追溯数据点以找到问题的根源。

示例：在银行中，数据沿袭可用于将特定数据点（例如账户余额）追溯到其来源。如果出现差异，数据沿袭可让数据工程师确定问题发生在管道中的哪个位置。
数据可观测性的工作原理
在整篇文章中，我们提到数据可观察性会主动监控数据管道，在出现问题时发送警报，并帮助团队快速找到问题的根本原因。

让我们探索每个组件在实践中是如何工作的！

监控数据管道
数据可观测性工具通过持续监控数据管道来发现错误贷款数据库它们可以跟踪数据管道的许多方面，但通常配置为专注于对组织需求最为关键的特定指标或领域。

这些工具通常与Apache Kafka、Apache Airflow或AWS Glue或 Google Cloud Dataflow等云服务集成，以收集管道各个阶段的见解。例如：

模式验证：像 Great Expectations 这样的工具可以强制执行模式规则，保证传入的数据符合预定义的格式（例如，数据类型、列存在和长度限制）。
异常检测：Monte Carlo 或 Databand.ai 等平台使用机器学习来识别数据量、处理时间或分布中可能预示问题的异常模式。
血统追踪：OpenLineage 或 Apache Atlas 等工具可以可视化数据在系统中的流动方式，从而更容易追踪变化或错误的影响。
警报和自动化
如果没有人知晓，快速检测问题有什么意义？数据可观测性工具会自动向相关人员发出警报，有时还会根据预定义的配置采取行动。

这些警报通常基于阈值或触发器配置，例如丢失记录、架构更改或意外数据延迟。例如：

如果 Apache Airflow 中的管道出现故障，可观察性工具可能会检测到数据量突然下降并通过 Slack 自动通知数据工程团队。
某些平台（如 Datafold 或 Soda）提供自动修复选项。例如，系统可以使用 AWS Lambda 等云工具将数据集回滚到上次验证的状态或将传入数据重新路由到备份存储位置。
根本原因分析
根本原因分析是一个系统性的过程，用于识别问题背后的根本原因。在数据可观测性方面，它涉及追溯数据问题的根源，而不仅仅是解决其症状。

数据可观测性平台通常提供丰富的诊断功能，可与 Elasticsearch 等日志管理系统或 Prometheus 和 Grafana 等监控平台集成，以显示详细信息。例如：

工具可能会将dbt中的转换失败追溯到源数据库中的架构不匹配。
通过分析沿袭数据，该平台可以突出显示哪些下游报告或仪表板受到影响，从而使团队能够相应地确定修复的优先级。
数据可观测性工具
通常，数据工程师会在内部实现可观察性功能。但是，如今有多种强大的工具可供团队有效实现开箱即用的数据可观察性。让我们来看看最受欢迎的工具！

蒙特卡罗
Monte Carlo是一个功能强大的数据可观测性平台，旨在帮助团队维护其数据系统的健康状况。该平台由来自 LinkedIn 和 Facebook 等公司的前工程师团队创建，旨在解决日益严峻的数据宕机挑战。它提供：

自动化数据质量检查：跟踪模式变化、新鲜度、数量和分布以检测异常。
根本原因分析：帮助团队查明问题的根源，例如管道破裂或数据丢失。
端到端数据沿袭：可视化数据流以了解变化或中断的影响。
Monte Carlo 与 Snowflake、dbt 和 Looker 等工具集成，使其成为在现代数据生态系统中工作的团队的理想选择。

大眼仔
Bigeye成立于 2020 年，由一群数据工程师创立。这是一个数据可观测性平台，旨在在整个生命周期内保持数据的质量和可靠性。

该平台专注于自动化数据质量监控、异常检测和数据问题解决，以保持数据管道畅通，并确保利益相关者能够依靠准确的数据进行决策。其功能包括：

可定制的监控：允许团队为数据完整性、新鲜度和准确性等指标设置特定阈值。
异常检测：使用机器学习来识别数据中的异常值或意外变化。
协作工具：提供与 Slack 和 Jira 集成的警报和报告，以简化问题解决。