来源: 埃克萨索尔
Posted: Sat Feb 22, 2025 6:03 am
我们定义了总体目标。总共有四个。其中一个目标是能够在一天内生产出一个数据产品。正如我上面提到的,我们希望分散数据产品的所有权和创建,这样我们就不再依赖中央团队了。然而,在这样做时,我们不能假设所有领域都有高度专业化的数据工程师。我们需要让这些分散的团队尽可能简单地创建值得信赖的数据产品。从工程角度来看,我们需要尽可能自动化创建表、数据管道、代码容器、设置 CI/CD 管道等过程。所有这些都需要在一天内完成,并隐藏在一些神奇的按钮后面供用户使用。
另一个目标(更多是关于 贝宁电话号码数据 数据产品消费)是,从最初发现数据产品到在数据实验室中对其运行第一个有意义的查询,只需五分钟。这将涉及对所有数据进行适当的分类,然后将数据目录直接连接到数据实验室,以创建预定义查询和结果库。
2021 年,我们开始采用数据网格方法。
到目前为止,我们已经在 AWS 中成功创建了一个数据管道框架,支持我们在一天内创建新数据产品的目标。我们已经实现了基础设施、数据产品的计算存储以及如何创建数据产品本身的自动化(由元数据驱动的 DDL 语句、数据管道、数据管道创建、由元数据调度驱动、由元数据驱动等)。我们已经创建了许多工程抽象,使在 AWS 堆栈中创建数据产品变得更加简单。
另一个目标(更多是关于 贝宁电话号码数据 数据产品消费)是,从最初发现数据产品到在数据实验室中对其运行第一个有意义的查询,只需五分钟。这将涉及对所有数据进行适当的分类,然后将数据目录直接连接到数据实验室,以创建预定义查询和结果库。
2021 年,我们开始采用数据网格方法。
到目前为止,我们已经在 AWS 中成功创建了一个数据管道框架,支持我们在一天内创建新数据产品的目标。我们已经实现了基础设施、数据产品的计算存储以及如何创建数据产品本身的自动化(由元数据驱动的 DDL 语句、数据管道、数据管道创建、由元数据调度驱动、由元数据驱动等)。我们已经创建了许多工程抽象,使在 AWS 堆栈中创建数据产品变得更加简单。