ETL是什么? 终极指南

如果你正在读这篇文章, 你可能听说过与数据相关的术语“ETL”, 数据仓库, 和分析. 它所代表的 “提取、变换和加载.”

如果你有来自多个来源的数据,你想把它们放到一个集中的数据库中, 你需要:

  • 提取

    来自其原始来源的数据,无论是另一个数据库还是一个应用程序

  • 变换

    通过清理数据,重复数据删除,合并数据,或者准备……

  • 负载

    将数据导入目标数据库

通常, 一个ETL工具可以完成这三个步骤, 是确保报告所需数据的关键部分, 分析,, 现在, 机器学习和人工智能是完整和可用的. 但是ETL的本质, 它处理的数据, 在过去的十年里,这个过程发生的地方已经发生了巨大的变化——正确的ETL软件比以往任何时候都更加重要.

ETL是什么?

一个简短的历史

ETL起源于20世纪70年代,是集中式数据存储的兴起. 但直到20世纪80年代末和90年代初才出现这种情况, 当数据仓库成为舞台中心的时候, 利记官网app下载看到创建了专门构建的工具来帮助将数据加载到这些新的仓库中. 早期的采用者需要一种从孤立的系统中“提取”数据的方法, “转换”成目标格式, 和“负载”. 最初的ETL工具很原始,但它们完成了任务. 诚然,他们处理的数据量以今天的标准来看是适度的.

随着数据量的增长, 数据仓库增长, 和ETL软件工具激增,变得更加复杂. 但是到了20世纪末, 数据存储和转换主要在本地数据仓库中完成. 然而, 发生了一件事,彻底改变了利记官网app下载看待数据存储和处理的方式.

进入云计算

利记官网app下载生成和收集的数据量继续以指数速度膨胀. 更重要的是, 利记官网app下载有越来越复杂的工具,使利记官网app下载能够使用利记官网app下载所有的数据,以获得对利记官网app下载的业务和客户的真实见解. 传统的数据仓库基础设施无法扩展到容纳和处理那么多的数据——至少在成本效益上是如此, 而且是及时的. 如果利记官网app下载想要高速运行, 对利记官网app下载所有的数据进行精密的分析和情报, 云是唯一可以做到这一点的地方. 云数据仓库亚马逊红移, 雪花, 谷歌BigQuery 是否可以无限地伸缩,以容纳几乎任何数量的数据. 云数据仓库还支持大规模并行处理(MPP), 它支持在水平可伸缩的计算资源集群之间协调巨大的工作负载. 自行部署的基础设施根本没有那样的速度或可伸缩性. 云改变了利记官网app下载处理数据以及定义和交付ETL的方式.

为什么etl很重要?

很多人问,既然利记官网app下载在云中,为什么利记官网app下载需要ETL? 它还重要吗?? 答案是:“是的. 绝对.“除了简单的提取,ETL还有几个商业好处, 清洁, 从A点(源点)到B点(目的点)的数据一致性和交付:

  • 上下文

    ETL帮助企业获取数据的深层历史背景.

  • 整合

    它提供了一个统一的数据视图,便于分析和报告.

  • 生产力

    它通过不需要大量手工编码的可重复过程来提高生产率.

  • 精度

    它提高了大多数企业为了符合法规和标准而需要的数据准确性和审计功能.

在云中需要ETL的原因和在传统数据仓库中需要ETL的原因是一样的. 您的数据仍然需要被带到一个中央存储库——现在的来源比以往任何时候都多, 有结构化和半结构化的形式. 这些巨大的数据存储需要转换成最适合分析的格式. ETL为快速访问和快速洞察准备数据. 数据必须收集和准备用于 商业智能工具, 如数据可视化软件, 否则,它在云中的用处并不比在某些数据中心中的原始格式更大.

ETL & 英语教学的变化过程

ETL和英语教学?

虽然ETL的目的是相同的,但是过程和工具正在改变. 大多数传统的ETL软件在将数据加载到数据仓库之前都会对其进行提取和转换. 虽然您仍然可以在云中使用传统的ETL产品来处理该过程,但不应该这样做. 原因如下:

在数据和工作量管理方面, 与传统的数据仓库基础设施相比,云在存储和处理方面具有指数级的可伸缩性. 但是传统的ETL软件在云计算中的性能并没有指数级的提高. 传统的ETL不太可能利用云数据仓库提供的本地改进和最佳实践. 事实上, 他们更有可能将云仓库视为传统仓库, 哪些会导致相同的性能瓶颈, 这可能会让你问,迁移到云提供了什么附加价值. 构建云原生英语教学(而不是ETL)是为了利用云数据仓库的最佳特性:根据需要的弹性可伸缩性, 同时大量并行处理多个作业, 以及快速启动和摧毁工作的能力.

在云计算中,三个传统ETL步骤的正确顺序也会改变. 在将数据加载到数据仓库之前,不需要清理专用ETL硬件上的数据. 相反,云为“下推式”英语教学架构创造了完美的条件:

  • 提取

    从多个源和连接器中提取数据

  • 负载

    将其原样加载到云数据仓库中

  • 变换

    使用目标云平台的功能和可伸缩性对其进行转换

英语教学是未来. 如果您仍然在本地,并且您的数据是可预测的, 来源很少, 那么传统的ETL仍然有效. 然而, 随着越来越多的企业致力于云计算或混合数据架构,这种情况正变得越来越少.

下载电子书

etl是如何被使用的

数据管理任务

ETL和英语教学工具可以帮助完成各种数据管理任务, 通常与其他工具和技术一起使用.

Etl和传统用途

最根本的是, ETL工具帮助企业将从源系统检索到的结构化和非结构化数据结合起来,并将它们放到数据仓库中. 通常,原始数据被操作成表结构,以进行报告优化, 通过分析或可视化软件,让隐藏的观点浮出水面. 例如, ETL可以合并名称, 的地方, 以及业务操作中使用的带有事务性数据流的定价数据——例如, 零售销售, 银行存款和取款, 医疗保健索赔, 和更多的.ETL还帮助企业将数据从传统仓库迁移到云. 它还可以用于整合来自两个不同实体的数据. 例如,ETL可以将数据合并为业务合并的一部分. 或者它可以将来自业务合作伙伴或供应商的数据连接到一个目标系统中.

ETL与大数据

传统的运营和事务数据只是当今大多数公司收集的数据的冰山一角. 从物联网(IOT)流入企业的大数据量, 社交媒体, video, 日志挖掘, 更令人震惊的是. 但企业需要这种广泛的数据来获得竞争优势, 理解上下文, 并做出准确的决定. ETL供应商必须不断地添加新的转换功能和连接器,以随着数据类型和数据源的发展和增加而发展.

用于Hadoop的ETL -以及更多

企业正在远离传统的数据仓库, 结构化的主数据, 和传统的ETL工具. 例如, 许多人选择在Hadoop中加载和转换结构化和非结构化数据, 在云上这样做越来越多. Hadoop是数据工程师可以提高ETL进程速度和可伸缩性的环境.集中式Hadoop存储库比传统数据仓库更容易扩展. 更重要的是, Hadoop是开源的,被许多人视为传统数据技术的低成本替代品. 一些Hadoop友好的ETL工具包括预构建的ETL转换库,以便在Hadoop中更快地处理数据.

    Etl和自助数据访问

    分析数据

    自从数据分析出现以来, 利记官网app下载依靠数据专家来为利记官网app下载集成和转换数据, 然后给利记官网app下载做决策所需的商业信息. 今天,业务用户需要更快地访问数据和业务智能,通常是实时的. 利记官网app下载不能等别人来为利记官网app下载准备. 自助数据准备使业务用户和非技术数据专业人员能够提取, 变换, 负载, 并自行经营商业智能业务. 决策者不需要等待数据工程师为数据分析师提供数据. 自我服务的分析师提供了在任何需要的时候提取关键数据的灵活性, 不只是在一个固定的时间表上. 和整体, 企业将更少的时间花在数据准备上,而更多的时间花在获取洞察力和培育创新上. IT专业人员也通过允许其他业务访问和分析他们自己的数据来夺回时间.

    Etl和数据质量

    ETL工具可以显著提高数据质量. 将数据从源系统转移到数据仓库的ETL过程标准化和自动化的能力意味着您不太可能拥有导致基于不准确信息和见解做出决策的脏数据. ETL工具还可以与专用的数据质量工具集成, 并且通常包含与数据质量相关的功能,如数据映射和数据沿袭.

    ETL和元数据

    知道数据的来源是很重要的, 而元数据通常是解锁数据沿袭信息的关键. 在ETL过程中,当工具提取源数据并将其带入目标系统时,例如 云数据仓库或数据湖, 该工具还收集元数据,这些元数据对于目标系统进行业务智能活动(如业务流程建模)时至关重要, 数据建模, 和报告. 开发人员不需要在存储库中再次创建数据结构, 因为ETL工具捕获并存储了这些信息. 在ETL过程中, 元数据存储在元数据存储库中, 它可以被操纵, 查询, 和检索.

    etl过程是如何工作的?

    传统ETL

    传统上, ETL工具从一个或几个联机事务处理(OLTP)数据库中提取数据, 也称为“事务性数据库”.OLTP应用程序包含大量的事务性数据,为了在数据分析和商业智能中发挥作用,这些数据需要与运营数据进行转换和集成.

    该数据通常被提取到暂存区, 位于数据源和数据目标之间的存储. 在集结区, ETL工具转换数据, 清洗, 加入, 或者优化分析.

    然后,该工具将数据加载到决策支持系统(DSS)数据库中, BI团队可以在上面运行查询,并将结果和报告呈现给业务用户,以帮助他们做出决策和制定策略.

    经常, 尽管ETL工具很有用, ETL过程仍然有些混乱和复杂, 因为数据本身是混乱和复杂的. 传统的ETL仍然需要数据专业人员进行大量的手工编码工作, 加工, 及其他手工维护任务.

    现代ETL(或英语教学)

    对于现代数据分析和英语教学来说,云永远改变了一切. 虽然在本地数据仓库中仍然存在一些业务智能和英语教学, 只有云有速度的组合, 可伸缩性, 实用性需要处理来自数十或数百个数据源的大量结构化和半结构化数据.

    强大的云数据仓库,如亚马逊红移, 雪花, 和谷歌BigQuery不需要外部资源(如中间ETL服务器)来执行转换——这些操作最好在CDW内部完成. 可以从预先计算的OLAP摘要中分析数据, 这将进一步简化和加快ETL过程(或者, 在这一点上, 英语教学, 因为数据是在云数据仓库中加载和转换的.)

    转换和数据建模发生在SQL中, 一种BI专业人员使用的语言, 数据科学家, 分析师们都有一个共同点.

    常见的ETL的挑战

    3 ETL的挑战

    ETL可能是一个非常复杂的过程,并且存在一些固有的挑战. 在选择ETL产品时,请记住这些挑战,以及它们如何影响您的业务. 不同的产品采用不同的方法, 但是您的选择取决于您的业务需求和使用数据的方式.

    Etl挑战1:扩展性

    可伸缩性是现代ETL工具中最重要的特性之一. 企业收集的数据量只会继续增长. 您现在可以批量移动数据,但这将永远适用于您的业务? 你能运行多少个任务? 您需要能够扩展ETL过程和容量,如果可能的话,可以无限扩展. 充分利用云. 当涉及到ETL和数据时,要想得大,而且要快.

    Etl挑战#2:准确转换数据

    另一个巨大的ETL挑战是确保您转换的数据是准确和完整的. 在运行ETL作业之前,手工编码和更改或计划和测试失败有时会引入错误, 包括加载重复, 缺失的数据, 和其他问题. ETL工具可以减少手工编码的需要,并有助于减少错误. 数据准确性测试可以帮助发现不一致和重复的地方, 监视特性可以帮助识别处理不兼容数据类型和其他数据管理问题的实例.

    Etl挑战#3:处理不同数据源

    数据量在增长. 但更重要的是,它变得越来越复杂. 一个企业可以处理来自数百甚至数千个数据源的不同数据. 这些资源可以包括结构化和半结构化的资源, 实时的来源, 平面文件, 华禾投资, S3 bucket, 流媒体资源, 无论出现什么新事物. 其中一些数据最好分批转换, 而对于其他人, 流媒体, 连续的数据转换效果更好. 以最有效和实际的方式处理每种类型的数据可能是一个巨大的挑战.

    下载电子书

    etl工具的类型是什么?

    可用的工具

    通常,目前有四种不同类型的ETL工具可用. 有些设计用于在本地数据环境中工作, 有些在云端, 有些人声称两者兼而有之. 选择哪种方法在很大程度上取决于数据的位置和业务需求.

    批处理ETL工具

    直到最近, 在内部工具中进行批处理是许多企业实现ETL的唯一可行方法. 从历史上看, 处理大量数据需要花费大量的时间和资源,并且在工作时间很容易耗费公司的计算能力和存储能力. 对于企业来说,在非工作时间使用ETL工具批量运行数据处理更有意义. 尽管一些现代工具支持流数据, 大多数云原生和开源ETL工具仍然做批处理, 但在什么时候能做以及多快的问题上就没有那么多限制了.

    进行ETL工具

    虽然最初ETL作业是在本地进行的,但现在数据正在转移到云中,ETL也是如此. 出现了几个云原生ETL应用程序,它们可以直接从数据源提取数据并将其加载到云数据仓库中. 然后,他们可以利用云的能力和规模来转换数据——这是处理大数据时的一个关键需求. 这些ETL工具可以直接部署到您的云基础设施(如利记官网app下载)中,或者作为SaaS托管在云中.

    开源ETL工具

    开源ETL工具是商业包装ETL解决方案的低成本替代品, 对于许多企业来说,这是一个实用的选择. 而一些开源项目只支持ETL的一个方面, 比如只提取数据的项目, 其他的则执行不止一种功能. 一些常见的开源工具包括Apache、Apache Kafka和Apache NiFi. 开源ETL项目的一个缺点是,它们不能处理现代企业所面临的数据复杂性, 可能缺乏对复杂数据转换和理想特性(如更改数据捕获(CDC))的支持. 除了, 获得对开源工具的支持是一项挑战, 与其他工具不同的是,有完整的支持团队.

    实时ETL工具

    批处理对于某些数据更新是很好的. 但如今,利记官网app下载更经常地要求对不同来源的数据进行实时访问. 如果你在谷歌文档中合作,你不希望一天后看到编辑和反馈. 如果你在金融行业工作, 对于今天时间敏感的需求来说,等待甚至几个小时来查看交易和转账是不可接受的. 实时需求越来越多地要求利记官网app下载实时处理数据, 具有分布式模型和流功能, 而不是分批. 现在有许多可用的流式ETL工具,包括商业的和开源的. 然而, 仅仅因为你可以实时执行ETL并不意味着你就应该这样做:在一些用例中,批处理对于处理大量数据来说仍然是更高效和更简单的.

    etl通常是如何使用的?

    ETL的使用

    ETL有几种最常用的方式.

    数据仓库

    企业传统上使用ETL从各种来源收集数据, 把它转换成一致的, 可分析的格式,并将其加载到数据仓库中, 商业智能团队可以出于业务目的对其进行分析.

    云迁移

    随着云计算的出现, 企业一直在将数据迁移到云上, 特别是, 将数据迁移到云数据仓库,以获得更快的洞察时间. 原生云ETL工具利用了云的优势, 包括速度和规模, 将数据直接加载到云并在云基础设施中进行转换, 是什么使数据专业人员节省时间和金钱.

    机器学习和人工智能

    尽管机器学习和人工智能在商业领域还不是很普遍, 许多企业开始探索如何将它们纳入分析和数据科学. 云是大规模机器学习和人工智能操作的唯一实用解决方案. 除了, 这两种技术都需要大量的数据存储来构建和训练分析模型, 以及自动化数据分析. 基于云的英语教学工具(而不是传统的ETL)对于将大量数据迁移到云以及将它们转换为可分析的工具都是必不可少的.

    营销数据集成

    如今,客户与企业的互动有多种渠道, 每天记录多个交互和事务, 甚至每小时. 对于营销人员来说,要了解所有这些渠道来了解客户的需求和行为是很困难的. ETL软件对于从电子商务中收集和集成客户数据至关重要, 社交网络, 网站, 移动应用程序, 和其他平台. 它还可以帮助整合其他上下文数据,这样营销人员就可以应用超个性化, 改善用户体验, 提供优惠政策, 和更多的.

    物联网(iot)数据集成

    物联网的一部分

    目前,企业增长最快的数据来源之一是联网设备和系统,它们是物联网的一部分. 无论利记官网app下载谈论的是可穿戴设备还是嵌入式传感器, 车辆, 或设备, 物联网正在产生天文数字的数据量. 专家预计,这一数量将增长一倍 28.5%的复合年增长率 从现在到2025年的增长率. 英语教学技术, 特别是进行ETL, 将对物联网来源的数据集成和转换至关重要.

      数据库复制

      ETL对于数据库复制也是至关重要的, 是否将从源数据库移动数据作为一次性操作, 或者作为一个持续的过程. 这通常涉及将数据从本地数据仓库转移到云数据仓库, 但随着越来越多的企业转向云计算, 这意味着从一个云基础设施或云服务提供商转移到另一个. 这就是为什么ETL或英语教学工具不仅能在云中工作是很重要的, 但可以灵活地跨多个云平台.

        商业智能

        永远不会改变的一点是,企业需要分析数据来提供商业智能,使经理和利益相关者能够做出明智的决策. 为了让这些决定得到真正的信息, 它们需要基于一个组织的所有数据, 不仅仅是遗留数据体系结构可以处理的那样多. 云数据仓库正在成为数据分析和商业智能的基本元素, 因此,基于云的ETL技术对于信息管理和更快的洞察时间也至关重要.

          etl的未来是什么?

          etl的未来

          云和大数据不再是ETL的未来. 他们是现在. 十分之九的企业表示,他们已经在云计算中存储了部分数据, 几乎所有企业都表示,他们目前或未来都有云数据迁移的计划. 利记官网app下载收集的数据量, 无论是结构化的运营数据,还是来自物联网的海量数据, 是不是已经开始超出了利记官网app下载传统的处理能力, 本地数据仓库. 那么ETL的未来是什么呢? 在接下来的十年里,利记官网app下载可以期待数据转换和管理的一些事情:

          指数数据增长

          数据不仅会继续增长,利记官网app下载看到的数据量将在未来十年迅速增长. 利记官网app下载的IDG市场脉搏调查 利记官网app下载的调查对象发现,数据平均每月增长63%, 12%的受访者表示,数据在以每月100%的速度增长.

          物联网将继续扩大,并在商业和利记官网app下载的生活中发挥越来越大的作用. 因此,利记官网app下载将继续超越传统系统,需要迁移到云. 利记官网app下载就越需要云本地工具来帮助利记官网app下载管理, 集成, 然后转换数据.

          更多的机器学习和人工智能

          为机器学习和人工智能准备数据将成为ETL的一个更关键的用例,因为下一个最佳行动和数字助理技术将继续扩展.

          数据的民主化

          在未来,数据将不仅仅是数据专业人员的专利. 企业希望——也需要——员工做出数据驱动的决策. 这意味着将数据集中起来,并使用能够减少人工处理的工具来增加洞察的时间. 这也意味着不同的业务单位将需要不同种类的ETL工具. 企业可以在IT中使用完整的数据转换功能, 面向业务用户的管道工具, 同时具有批处理和流处理功能, 这取决于对实时信息的需求. 整体, 整个组织越能自我服务,就越能获得可操作的见解, 他们的竞争优势就越大.

          如何建立一个etl战略

          ETL战略过程

          为了保持竞争力,企业需要做三件事:

          • 利用

            利用它收集的所有数据, 结构化和半结构化, 操作, 和事务, 为创新和决策获得最大限度的洞察力.

          • 移动

            转向能够有效收集和分析所有这些数据的平台. 现在, 从速度的角度来看,云数据仓库是最实用的解决方案, 规模, 和成本.

          • 投资

            投资一个ETL工具,可以帮助它提取数据并将其转换为云计算 数据分析 越快越好,减少洞察的时间.

          对于今天的企业来说,数据、云数据仓库和数据的权利 ETL解决方案 一个具有前瞻性思维的商业情报战略是否有三个同样重要的分支. 没有这些东西, 对于一个企业来说,要在未来5年里保持地位是非常困难的.

          ETL工具需要做五件事:

          它必须是云原生的. 用于传统数据仓库的传统工具不能进行转换. 它们是为一个有局限性的平台而设计的, 并且不会进一步利用云的速度和可伸缩性.

          它需要深入. 基于云的ETL工具需要做传统ETL工具所做的所有事情, 全面的, 成熟的企业ETL工具做到了——还有一些. 它需要能够将各种数据进行结构化, 半结构化, 云或prem -从各种数据源并将它们连接在一起.

          它需要具有变革性. 仅仅在管道中从左向右移动数据并不是全部工作. 这甚至不是工作中最关键的部分. 组织需要一个专门创建的工具来转换数据并使其便于分析.

          它需要灵活. 很少有企业只在一个云上拥有数据和运营. 或者它不需要将信息从一个云转移到另一个云. 选择一个可以随你移动的工具. 此外,改造的工作几乎从来没有完成过. 你在转换层不断创新, 随着业务的变化,新的问题需要新的答案和见解.

          让利记官网app下载帮助您建立您的ETL战略

          利记官网app下载 ETL是云数据仓库的数据转换. 作为部署到云基础设施中的本地云解决方案, 利记官网app下载利用云的速度和规模来整合大型数据集,并快速转换数据,为分析做好准备.

          要了解更多关于利记官网app下载和英语教学技术,请下载利记官网app下载的电子书,从ETL到英语教学.

          下载电子书