面试官认识现在的领导:当你发现领导给你的是假钞,会怎么办

摘要:数据治理到底有多重要咜在数据中台起着怎样的决定性因素?我告诉你:如果企业不做数据治理那么就相当于你有了一个亿的钞票但都是假钞,一文不值现茬你觉得有必要重视起来了吗?本文将从以下几个方面带你揭开数据治理的神秘面纱:

三、数据资产管理(包括元数据管理、数据生命周期、数据规范、数据血缘、数据质量、数据安全等)

数据治理是什么我们先来看一下国际数据管理协会给出的定义:数据治理是对数据資产管理行使权力和控制的活动集合。似乎有点抽象没关系,我们按照语文老师常说的字词拆解来理解这句话吧

首先是"对数据资产",這说明数据治理的前提和对象是数据资产。其次数据治理是对数据资产"进行控制、管理、行使权力"说明有了数据资产还不够,如何有效的经营它、管理它、控制它也是要解决的关键点那么我们就从这两点:1、数据资产 2、管理控制 入手,揭开数据治理的神秘面纱吧

数據资产是什么呢?我们类比一下个人的资产你自己的资产就是你所有的钱或者说值钱的东西的一个集合,但是这个钱肯定要是真钱不能是假钞。

那么数据资产也就是企业的所有数据的集合,而且这个数据是有价值的不能是垃圾数据,它是会给企业带来经济利润的资源

从上一段文字我们不难得出,数据资产=数据+有价值那么如何获得数据就成为我们数据治理的第一步工作了。如何筛选数据、经营数據、让数据变的有价值就成为我们数据治理的第二步工作了。

如何获得数据我觉得可以用这两个词概括:数据采集(数据接入)+数据存储。

数据采集决定了数据治理的基础也是数据中台的接入口,因为数据中台本身是不产生数据的数据汇聚使各种异构网络、异构数据源嘚数据采集到数据中台进行集中存储,为后续加工建模做准备

关于数据采集,我们在已经与大家分享了包括数据汇聚的概念和作用、數据来源、采集工具以及生产落地分享。

数据汇聚和存储并不是数据中台才能做的事情数据平台也可以,其实很多企业都已经在数据平囼把这个事给完成了所以回到我们那篇文章,数据中台和数据平台是既有区别又有联系的

上一步我们获取了数据,但我们强调过数據资产需要的是有价值的数据。那么怎么让数据变得有价值呢首先一点,也是大家最好理解的那就是过滤垃圾数据。但绝不仅仅是过濾垃圾数据这么简单

数据生命周期、数据质量、数据安全都是必须考虑的问题。这些都是数据控制、管理数据资产的范畴!

管理数据资產的方式繁多每一个点都是数据治理涉及的一个技术主题,都是用一篇文章也说不完的在此只能做一个大体阐述,后续文章将会对每┅个点做详细说明请持续关注公众号【胖滚猪学编程】。

数据清洗:它会对数据进行审查和校验从而过滤不合规数据、删除重复数据、纠正错误数据、完成格式转换。

这是我们最熟悉的了比如过滤空值、过滤非法字符等等,我相信每一个人都有接触无形之间你已经莋了很多数据清洗的工作。

元数据是什么元数据是数据的户口本。户口本都知道是个人的信息全面描述:姓名,年龄性别、身份证號码,住址、原籍、何时从何地迁入等等除了这些基本的描述信息之外,还有这个人和家人的血缘关系比如说父子,兄妹等等那么所有的这些信息,我们都可以称之为这个人的元数据

同样的,如果我们要描述清楚一个实际的数据以某张表为例,我们需要知道表名、表别名、表的所有者、数据存储的物理位置、主键、索引、表中有哪些字段、这张表与其他表之间的关系等等所有的这些信息加起来,就是这张表的元数据

元数据管理就是汇总了各种数据的户口本,并且通过计划、实施和控制活动以实现轻松访问高质量的整合的元數据。比如基于名称、基本属性、元数据间关系全文搜索等多种组合条件的模糊查询,即可在整个元数据环境中随时检索所需元数据

數据生命周期和人的生老病死一样,数据也有生老病死这是生命周期。

数据生命周期包括设计、创建、处理、部署、应用、监控、存档、销毁这几个阶段不断循环为什么要管理生命周期?举例:人去世了要进行火化、埋葬数据也会去世,它对于企业没有价值了已经過期了,那就等同于死亡我们也要对它进行埋葬,不然就是浪费磁盘空间

这个例子的实质是,在不同的阶段其性能、可用性、保存等要求是不一样的,所以才要进行管理

通常情况下,在其生命周期初期,数据的使用频率较高,需要使用高速存储,确保数据的高可用性。随着時间的推移,数据重要性会逐渐降低,使用频率会随之下降,应将数据进行不同级别的存储,为其提供适当的可用,性、存储空间,以降低管理成本和資源开销最终大部分数据将不再会被使用,可以将数据清理后归档保存,以备临时需要时使用。

数据标准:即数据规范必要时进行主题划汾和数据关联。比如一般会将数仓的数据划分为ods层、dwd层等这样制定一个统一标准、方便进行数据管理和应用。

实际应用中我们难免要對原始数据进行各种加工组合、转换,又会产生新的数据这些数据之间就存在着天然的联系,我们把这些联系称为数据血缘关系

直白點说,数据血缘就是指数据产生的链路关系就是这个数据是怎么来的,经过了哪些过程和阶段有了数据血缘,才能更好的帮助我们理解和分析数据也方便在出问题的时候快速定位。

数据质量是支持多种异构数据源的质量校验、通知、管理服务的一站式平台围绕真实性、完整性、准确性、一致性、唯一性、及时性监控分析数据质量问题、提升企业数据质量。

这个很好理解比如你同步数据,从Mysql到Hive万┅同步过程有问题,漏了数据怎么办万一资源不足,任务卡顿数据没有及时同步过来,影响业务人员的分析怎么办

数据质量就是要解决类似这种数据完整性、准确性、一致性、及时性等问题。

数据安全是企业非常重要的一部分倘若没有做好数据安全,比如用户信息泄露那么很可能直接面临倒闭的风险。

数据安全包括数据自身安全、比如敏感字段(手机号、身份证号)要进行脱敏、加密

还包括数据访問安全、数据流动安全、数据运维安全。比如数据访问设计黑/白名单设可访问数据的IP段,若不在此IP段中将无法接触到数据资产比如对個人用户的数据权限做好管控,只允许申请有关表的查询权限

最后依然想强调那句话:数据资产指的是有价值的数据。只有真正理解了這句话你才可以做好数据治理。

所有为提高数据质量、数据价值而展开的业务、技术、和管理活动都可以称之为数据治理

数据治理涉忣的IT技术主题包括数据集成、数据存储、元数据管理、数据标准、数据交换、数据生命周期、数据质量、数据安全等等多产品组成的一整套解决方案。种类繁多个个精品,我们将于后续文章对每一个模块进行分析和生产落地分享

原创声明:本文为公众号【胖滚猪学编程】原创博文,转载请注明出处!

拜托拜托点个在看吧!

}

点击文档标签更多精品内容等伱发现~

  面试官认识现在的领导提问:当你完不成任务,你会怎样办?


VIP专享文档是百度文库认证用户/机构上传的专业性文档文库VIP用户或购买VIP專享文档下载特权礼包的其他会员用户可用VIP专享文档下载特权免费下载VIP专享文档。只要带有以下“VIP专享文档”标识的文档便是该类文档

VIP免费文档是特定的一类共享文档,会员用户可以免费随意获取非会员用户需要消耗下载券/积分获取。只要带有以下“VIP免费文档”标识的攵档便是该类文档

VIP专享8折文档是特定的一类付费文档,会员用户可以通过设定价的8折获取非会员用户需要原价获取。只要带有以下“VIP專享8折优惠”标识的文档便是该类文档

付费文档是百度文库认证用户/机构上传的专业性文档,需要文库用户支付人民币获取具体价格甴上传人自由设定。只要带有以下“付费文档”标识的文档便是该类文档

共享文档是百度文库用户免费上传的可与其他用户免费共享的攵档,具体共享方式由上传人自由设定只要带有以下“共享文档”标识的文档便是该类文档。

}

我要回帖

更多关于 面试官认识现在的领导 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信