数据交换是个啥

就是把委办局的数据,从一个地方复制到另外一个地方

1
2
3
4
5
6
7
8
9
10
11
12
13
14
1、从哪复制,复制到哪?数据源配置 源数据源 目标数据源

2、复制过来怎么放?不能乱放吧,胡乱放置用的时候没法找不是
$ 那么就需要:建表 ,建立字段对应关系

3、知道从哪拿,怎么放后,复制还有讲究
拿哪些来复制啊?
每次都拿全量?
上次我拿过了的数据这次还拿不就重复了嘛?我咋知道上次我拿了哪些啊?
你这么多东西不能让我拿回去再退回来吧,我拿回去不也挺费事嘛!你能告诉我么?

$ 那么就需要交换规则:全量、增量标志、增量字段、增量条件

照着规则走就一定不会错么? $ 思考点一

什么时候开始复制啊?

1
2
3
4
5
6
7
8
9
你都还没把东西准备好,我来拿不也白跑么,咋能约定个时间我上门就能拿到东西么?

$ 交换频率,日,小时,月,分 $$ 思考点二

到此看着一切都往好的方向在发展,很顺利啊

但有人不满足了,你复制完成了,谁知道啊?老板不能端个小板凳一直守门口看着结果吧。

$ 监控预警 成功,失败 $$ 思考点三

数据入库流程

1
2
3
4
5
6
7
8
9
10
11
12
13
数据同步

这次拉过来的直接混到历史全量里面?要不要我先检查下有没有老鼠屎啊?不要一棵老鼠屎坏我一锅汤啊?

$ 单独存储本次增量数据,检验通过后再存入全量数据中

数据归集 将本次的增量汇总到全量表中

$ 数据错误条数 允许存在多少条错误数据 多少颗老鼠屎

还是差信息,你这次过来了多少数据量?过来的是哪的数据呐?来多了我都不清楚我有多少资产了

$ 数据汇总 汇总本次任务的信息,从哪个部门来的数据,来了多少条,什么时间来的,配置中的上下文参数都是为这做准备的。

到此我们的交换基本清晰了。

思考点一

1
2
3
每次我都我都是照着规则走的啊,为何你说你说给了我10条金项链,到我就是只复制了2条呐?你没有讹我吧

$ 对账 按天,表,数据量 对账 $$ 思考点四

思考点二

1
2
3
你说我人都按时到了,你的数据呐?我还复制不了?我是大方点不计较这次的瞎忙活呐?还是一定要叫真,就要让你给我个说法。

$ 空数据预警 关键数据配置

思考点三

1
2
3
4
5
你任务完成了,但你啥时候完成的呐?这洗完澡等你递条毛巾,水珠都风干半天了你才来!

$ 超时预警 超过预期时间还未完成就告警

$ 并行 一般情况不开,自己走。来不及了开个2 小跑,再不行开个3 给个电单车 还不行给个4 小轿车

思考点四

1
2
3
数据不对了,我得重新复制吧,好,把我手上错误的清理掉,重新来一份。

$ 数据重跑流程配置

题外话

1
2
3
4
5
6
7
8
9
以上流程配置是在dataworks中实现,由于这个产品部署在专网,网段没有添加白名单,导致和委办局提供的中间库网络不通,这时候我们就提供一个加入了白名单的前置库,让委办局将他们的数据推到这个前置库中,这样就能实现上面的交换场景了,皆大欢喜。但有些委办局没有这个推送能力啊,怎么办?

有能力的我们要交换,没能力的我们创意能力也要交换,

$ 前置机桥接工程扑面而来

网络环境打通,部署datax实现数据从中间库读取,再写入前置库。部署需求多了怎么办?
封装成工程便于快速部署!部署多了如何管理?
工程增加心跳服务,平台统一监控存活情况,任务调度统一管理任务调度。