级 查询执行引擎适用于 上的数据
这些工具增加了运行成本和解决方案的复杂性。 通常数据量很大数据采用可查询的格式并且所需的处理非常简单。在这些情况下使用 增加的复杂性和成本可能不值得。 在这篇文章中我们提出了一种轻量级、可扩展的方法用于以低成本处理大量数据。 使用 ™在几分钟内启动您的业务 问题:让简单的事情变得简单 我们团队的大多数数据处理需求都很简单不需要像 这样的复杂工具。我们面临的挑战是找到一种轻松表达简单工作流程的方法。 我们希望我们的解决方案具有以下属性: 编写、理解和维护工作流程应该很容易。工作流程应该能够扩展到非常大量的数据。 工作流程应该可以重 美国电报数据 新运行。每次重新运行工作流时它都应该使输出数据保持一致的状态以反映最新的运行而不是所有运行的累积。 每个工作流程都应跟踪其运行成本。 工程师应该能够对运行成本进行细粒度的控制。 解决方案: 、 模板和 我们设计解决方案的首要任务是分析我们的数据处理需求。我们得出的结论是我们将能够使用完成所有处理。 的优点是功能强大、众所周知、易于编写且易于理解。使用作为起点我们知道我们需要一些东西来查询数据和一些东西来编排工作流程。
https://lh7-us.googleusercontent.com/ByIBkmNB2nywC2xnzyr5VsvWvCdtBlAtngTxCNdr4aDh2Tm6mZK-de_w1SkHvJHKt-kpzZGhSZNNNnnP-scegVKkIbsud8UMszofOrw_AJcP7UgUCRx-tQrrT2A46EsXM6e2A5mw3aR17ZUGU9gXswA
我们使用 和 来处理这些职责。 亚马逊雅典娜 是一个无服务器、 。 的定价模型基于扫描数据的字节数。这使我们能够通过限制扫描的数据来控制查询成本。 值得注意的是不规范地使用可能会导致非常高的成本。因此我们建议使用 来监控扫描的数据并使用 来限制扫描的数据。 限制扫描数据量的主要方法之一是在创建表时使用基于时间的分区。这允许查询仅扫描指定日期范围的数据。可以将查询结果插入到现有表中并使用 更新该表的分区。
頁:
[1]