加入收藏 | 设为首页 | 会员中心 | 我要投稿 网站开发网_盐城站长网 (https://www.0515zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 站长百科 > 正文

平安证券刘宏霞:教你如何保障大数据质量

发布时间:2021-01-13 09:28:15 所属栏目:站长百科 来源:网络整理
导读:副标题#e# 《平安证券刘宏霞:教你如何保障大数据质量》要点: 本文介绍了平安证券刘宏霞:教你如何保障大数据质量,希望对您有用。如果有疑问,可以联系我们。 作者简介: 刘宏霞 平安证券 大数据测试组负责人 2014年加入平安证券,正值互联网金融潮流兴起,

  1. 我们会进行 DT 分布诊断,比如对于全量表,dt 分布应该是曲线上升的,如果某天变成曲线波动,就说明出现了问题.
  2. 我们会做重复观测诊断,重复观测诊断可以判断,来确定这张表的组件是什么,如果数据主键存在重复数据的情况下,就要确认这张表是不是迁移的时候就有问题还是源数据有问题,这是需要分析的.
  3. 单变量诊断,这里有频度、长度、截取前XX位的.
  4. 数据类型分布诊断,有 sum、均值、标准差、max、min、分位数、中位数等.

其次,我们会做业务诊断.我们对业务诊断过程中,大家会发现对于底层表可能有几十个,我们需要分析字段和字段之间存在一对一,还是一对多,还是多对一的关系,避免数据虚增;

数据关系映射,表间映射关系,诊断通过哪些字段进行关联;

另外我们还会进行表间 HITRATE 诊断,不同表间 ID 类字段的匹配率,来确定哪张表是主表.

只有通过诊断,才能发现哪些数据或者业务存在问题,不是说业务告诉我什么样子就是什么样的情况.大家可能会很奇怪,你们做这么多诊断,你们在项目中是怎么做的.

举个例子,经常使用平安证券 App 的人会知道,我们页面上会有收益额,比如收益额 = 期末市值 – 期初市 + 卖出 – 买入.

因为交易处理方式是不一样的,比如晚上我们要做清算,可能有些公司不是这样的情况,我们要跟交易所做清算,跟 TA 公司做清算等,这些清算规则也是不一样的,不同基金清算方式不一样的.

并且我们数据来自不同系统,比如账户系统、交易系统、基金系统、融资融券等.

(编辑:网站开发网_盐城站长网 )

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!