DataWorks(数据工场,原大数据开发套件)是阿里云数加重要的PaaS平台产品,它提供全面托管的工作流服务,一站式开发管理的界面,帮助企业专注于数据价值的挖掘和探索。
DataWorks(数据工场)基于MaxCompute作为核心的计算、存储引擎,提供了海量数据的离线加工分析、数据挖掘的能力,详情请参见MaxCompute简介。
DataWorks(数据工场)是阿里云推出的大数据领域PaaS平台,是一站式的DW能力平台,提供数据集成、数据开发、数据管理、数据治理等全方位的产品服务。
使用DataWorks(数据工场),可对数据进行数据传输、数据转换等相关操作,从不同的数据存储引入数据,对数据进行转化处理,最后将数据提取到其他数据系统。完成整个数据的分析流程,如下图所示:
提供强大的调度能力,支持按照时间、依赖关系的任务触发机制,支持每日千万级别的任务按照DAG关系准确、准时运行。支持分钟、小时、天、周和月多种调度周期配置。
完全托管的服务,无需关心调度服务器资源问题。租户之间提供隔离,保证不同租户之间的任务不会相互影响。
支持数据同步、SHELL、MaxCompute SQL、MaxCompute MR等多种任务类型,通过任务之间的相互依赖完成复杂的数据分析处理。
① 数据转化能力依托MaxCompute强大的能力,保证了大数据的分析处理性能。更多详情请参见 MaxCompute简介。
② 数据同步能够依托 DataWorks(数据工场)> 数据集成 的强力支撑,支持多达20+数据源,提供稳定高效的数据传输。更多详情请参见数据集成简介。
提供可视化的代码开发、工作流设计器页面,无需搭配任何开发工具,简单的拖拽和开发就可以完成复杂的数据分析任务。只要有浏览器有网络,便可随时随地进行开发工作。
运维中心提供可视化的任务监控管理工具,支持以DAG图的形式展示任务运行时的全局情况。
可方便地配置短信报警,任务发生错误可及时通知相关同学,保证业务正常运行。
1)仅支持Chrome浏览器54以上版本。
2)目前无法支持SQL运行在阿里云云数据库、阿里云分析型数据库等产品,仅支持MaxCompute。
能够实现:
1)提升业务洞察能力
通过 MaxCompute 计算能力可实现针对百万用户的精细化运营。
2)业务数据化
可提升对业务数据的分析能力并进行有效监控,更好的业务赋能。
3)快速响应业务需求
数加生态满足新业务数据分析需求的随机应变能力。
能够实现:
1)让企业更专注于业务
可在短时间内,将业务全面的交付云端,让云端的海量资源真正为业务服务。阿里云成熟的业务扩展方案可让企业在业务无缝扩展等具体事务上无需操心太多。
2)降低投资、运维成本
可极大减少自建大数据平台的物力投入、人力运维投入和研发投入。
3)安全稳定
全方位服务能力及其稳定安全的表现可确保数据上云万无一失。
通常情况下,数据开发的总体流程包括数据产生、数据收集与存储、数据分析与处理、数据提取和数据展现与分享,如下图所示:
注意:上图中,虚线框内的开发流程都可基于阿里云大数据平台来完成。
数据开发流程说明如下:
业务系统每天会产生大量结构化的数据,这些数据都存储在业务系统所对应的数据库中,包括MySQL、Oracle、RDS等类型。
若想利用MaxCompute的海量数据存储与处理能力来分析这些已有的数据,首先需要将不同业务系统的数据同步至MaxCompute中。
DataWorks提供数据集成服务,可支持多种数据源类型将业务系统数据按照预设的调度周期同步到MaxCompute。
随之可对MaxCompute上的数据进行加工(MaxCompute SQL、MaxCompute MR)、分析与挖掘(数据分析、数据挖掘)等处理,从而发现其价值。
分析与处理后的结果数据,需同步导出至业务系统,以供业务人员使用其分析的价值。
最后可通过报表、地理信息系统等多种展现方式来展示与分享大数据分析、处理后的成果。