Dataiku 允许您将计算委托给正确的引擎

pappu6327 · Post by **pappu6327** » Sun Feb 16, 2025 4:08 am

计算是有成本的，Dataiku 提供各种策略来帮助以经济高效的方式管理计算。为此，Dataiku 可以使用自己的应用服务器。它还可以将计算委托给外部引擎。我们将此过程称为计算下推。

在 Dataiku 中，转换数据集时，您大部分时间都在处理样本。完成转换后，您可以将这些步骤应用于整个数据集。现在您可以选择最佳计算引擎。它应该与数据存储和您需要执行的操作相匹配。在某些情况下，管理员可以为您设置默认计算引擎。这让您可以专注于设计和运行转换。您不必担心资源选择。

Dataiku 中的计算下推主要有四种形式：

下推计算 Dataiku

您可以在内存中运行计算，也可以在 Dataiku 引擎上流式传输它们。您可以使用此策略来执行 Python 配方。
2. 使用数据库内策略将可视化配方转换为 SQL 查询。然后，SQL 服务器或 Snowflake 等云原生数据仓库将运行您的查询。

3. 您还可以使用 Spark 集群或 Databricks 通过 Spark SQL 查询来推动计算。

4. Docker 和 Kubernetes 集群为 Dataiku 的主机服务器提供了替代方案。这些技术可实现容器化的内存执行。

您的 Dataiku 平台管理员可以配置和管理您的计算引擎。他们可以访问高级配置和权限设置。这使组织能够保护基础设施访问并控制其成本。这保证了资源的有效和安全分配。

因此，Dataiku 允许您将计算推送到您选择的基础设施上。但是，您可以将其多广泛地应用于您的数据准备和 ML 管道？

您的整个 ML 管道都可以从计算下推中受益
数据工程师长期以来一直在使用分布式计算。他们利用早期的 Hadoop 和 Spark 集群应对大数据挑战。如今，有更多专门为分布式处理量身定制的工具。Spark 和 PySpark 仍然是许多工作负载的基础。Kubernetes 已成为编排容波兰电话号码数据器化应用程序的关键参与者。这些技术更加灵活。它们让数据工程师能够根据特定的数据处理需求选择最佳工具。这些可以包括大规模 ETL 管道或实时流式传输应用程序。

对于数据科学家来说，前景同样令人兴奋。他们现在可以利用经济高效的 GPU 资源。他们可以利用各种并行化技术来加速基于云的模型训练。这些功能使他们能够训练更大的模型。他们还能够设计复杂的分布式特征工程工作流程。总而言之，他们现在可以以前所未有的规模处理和分析数据。向基于云的并行计算的转变使实验速度更快。这导致了更复杂的模型开发。反过来，数据科学家现在可以专注于最大化模型性能。同时不受基础设施限制的影响。

推理过程中，速度也至关重要。低延迟预测确实可以在实时应用中带来竞争优势。分布式系统支持快速、响应迅速的模型。它们为推荐引擎、欺诈检测系统和动态定价应用程序提供支持。在大型语言模型 (LLM) 时代，Dataiku 支持在 GPU Kubernetes 集群上运行自定义 Hugging Face 模型。这使公司能够在其基础架构中部署强大的自然语言应用程序。这个现代生态系统为数据专业人员提供了一套可扩展、高性能的模型开发和部署工具。这使得高级分析在任何规模上都可以访问和操作。