架构的选择重要吗?
Posted: Mon Feb 17, 2025 8:47 am
许多数据库供应商声称自己适合实时分析,而且他们在这方面确实有一些能力。例如,考虑天气监测的场景,其中需要每秒从数千个气象站采样温度读数,并且查询涉及基于阈值的警报和趋势分析。、、 甚至 都可以轻松处理这个问题。通过创建推送 将指标直接发送到数据库并执行简单查询,可以实现实时分析。
那么,实时分析的复杂性何时会增加?在上述示例中,数据集相对较小,涉及的分析也很简单。每秒仅生成一个温度事件,并且使用 语句的简单 查询来检索最新事件,因此所需的处 丹麦手机号码数据 理能力极小,因此任何时间序列或 数据库都可以对其进行管理。
当采集的事件量增加、查询变得更加复杂且维度众多、数据集达到 甚至 级时,真正的挑战就会出现,数据库就会被推到极限。虽然 通常被认为是高吞吐量采集的首选,但其分析性能可能达不到预期。如果分析用例需要大规模连接多个实时数据源,则需要探索替代解决方案。
以下一些因素将有助于确定适当架构的必要规格:
您是否每秒处理数千到数百万的大量事件?
最小化事件创建和查询之间的延迟是否重要?
您的总数据集很大吗?而不仅仅是几 ?
查询性能有多重要——每个查询需要亚秒还是几分钟?
查询有多复杂,导出几行还是大规模聚合?
避免数据流和分析引擎停机重要吗?
您是否尝试加入多个事件流进行分析?
您是否需要将实时数据与历史数据放在一起?
您是否预计会有许多并发查询?
如果其中任何一个方面相关,那么让我们来讨论一下理想架构的特征。
那么,实时分析的复杂性何时会增加?在上述示例中,数据集相对较小,涉及的分析也很简单。每秒仅生成一个温度事件,并且使用 语句的简单 查询来检索最新事件,因此所需的处 丹麦手机号码数据 理能力极小,因此任何时间序列或 数据库都可以对其进行管理。
当采集的事件量增加、查询变得更加复杂且维度众多、数据集达到 甚至 级时,真正的挑战就会出现,数据库就会被推到极限。虽然 通常被认为是高吞吐量采集的首选,但其分析性能可能达不到预期。如果分析用例需要大规模连接多个实时数据源,则需要探索替代解决方案。
以下一些因素将有助于确定适当架构的必要规格:
您是否每秒处理数千到数百万的大量事件?
最小化事件创建和查询之间的延迟是否重要?
您的总数据集很大吗?而不仅仅是几 ?
查询性能有多重要——每个查询需要亚秒还是几分钟?
查询有多复杂,导出几行还是大规模聚合?
避免数据流和分析引擎停机重要吗?
您是否尝试加入多个事件流进行分析?
您是否需要将实时数据与历史数据放在一起?
您是否预计会有许多并发查询?
如果其中任何一个方面相关,那么让我们来讨论一下理想架构的特征。