DataWorks(数据工场,原大数据开发套件)支持以下两种操作:
1)将保存在本地的文本文件中的数据上传到工作空间的表中。
20通过数据集成模块将业务数据从多个不同的数据源导入到工作空间。
请使用 chrome 48 版本以上浏览器。
本地文本文件上传的限制如下:
1)文件类型:仅支持 .txt 和 .csv 格式。
2)文件大小:不超过 10 M。
3)操作对象:导入分区表时,分区不允许为中文。
本文将以 banking.txt 为例,说明如何将本地文件上传到 DataWorks 中。
1. 单击 导入,选择 导入本地数据。
2. 选择本地数据文件,配置导入信息,单击 下一步。
3. 如果导入数据的表已存在,则至少输入2个字母搜索表名即可。
如果没有创建导入数据的表,则可以单击 去新建表,输入建表语句后,单击 确认。建表语句如下:
CREATE TABLE IF NOT EXISTS bank_data ( age BIGINT COMMENT '年龄', job STRING COMMENT '工作类型', marital STRING COMMENT '婚否', education STRING COMMENT '教育程度', default STRING COMMENT '是否有信用卡', housing STRING COMMENT '房贷', loan STRING COMMENT '贷款', contact STRING COMMENT '联系途径', month STRING COMMENT '月份', day_of_week STRING COMMENT '星期几', duration STRING COMMENT '持续时间', campaign BIGINT COMMENT '本次活动联系的次数', pdays DOUBLE COMMENT '与上一次联系的时间间隔', previous DOUBLE COMMENT '之前与客户联系的次数', poutcome STRING COMMENT '之前市场活动的结果', emp_var_rate DOUBLE COMMENT '就业变化速率', cons_price_idx DOUBLE COMMENT '消费者物价指数', cons_conf_idx DOUBLE COMMENT '消费者信心指数', euribor3m DOUBLE COMMENT '欧元存款利率', nr_employed DOUBLE COMMENT '职工人数', y BIGINT COMMENT '是否有定期存款' ) PARTITIONED BY(pt STRING) ;
注意:
1)新建表中仅支持编辑并执行一条建表语句,如果编辑多个语句,则按“;”分句后,仅执行第一句。
2)表语句需要使用 MaxCompute SQL 语法,该语法与标准 SQL 略有区别,详情请参见 与标准 SQL 的主要区别及解决方法,更多 SQL 语法请参见 DDL 语句。
4. 建表成功后,页面右上角会提示 新建表成功。
5. 选择导入数据的表名后,选择字段匹配方式(本示例选择按位置匹配),选择按位置匹配以后,会提示 点击检测按钮,测试分区是否存在,检测后单击 导入。
注意:检测功能只是提醒您分区是否存在,如果存在,则进行追加插入;如果不存在,则创建分区,分区不可输入中文。
6. 文件导入后,系统将提示您数据导入成功或失败。