欢迎大家来到IT世界,在知识的湖畔探索吧!
01
什么是数据管理
什么是数据血缘?在揭示数据血缘的奥秘之前,为了更好地理解,我们先来探讨一下数据以及数据管理的基本定义。熟悉这些概念后,我们将深入研究数据血缘、数据血缘分析和数据血缘可视化之间的关系。
数据是客观事件进行过程记录并保存的一种符号,是一种客观存在的资源。数据无处不在,就像空气一样存在于我们的物理世界中。从覆盖量来分类的话,数据可以分为以下几类:基础数据、参考数据、主数据、事务数据、指标数据。我们往往容易对于数据、信息、知识三者之间的概念进行混淆。实际上信息与知识正是基于数据进行定制加工而生产出来的,所以(准确的、及时的、完整的)数据作为一种资源,已经越来越受到人们的重视。
2020年4月9日,中共中央、国务院发布了《关于构建更加完善的要素市场化配置体制机制的意见》文中将数据定义为一种新型生产要素,与土地、劳动力、资本、技术要素并列,成为五大生产要素之一。随着国家政策的逐步落地,数据作为一种组织资产已经势在必行,数据已经成为每家企业在未来必须拿下的高地,用好数据的企业才能在未来大环境中生存,不会在激烈的市场竞争中被淘汰,管理好数据资产的企业才能应对未来市场的千变万化,更有市场竞争力。
数据管理是伴随着信息化到数字化进程发展在推进的,在企业未普及计算机时,早期的数据都是线下文本记录留存,查询使用数据不仅费劲而且容易丢失。1951年第一批计算机商业化开始生产,由单纯为军事服务逐步为社会公众服务,计算机使用时代真正开始,包括政府、企事业单位的数据逐步由线下数据转为线上化存储,但此时更多的是属于简单的数据登记运算和保存为目标,数据依旧相互独立,这一阶段属于信息化发展阶段。
当线上数据逐步增加,现代企业管理精细化逐步形成之后,对数据管理提出更高的需求,数据不仅要记录,同时要在组织内部共享,数据之间相互调用,提升组织内部效率,打破数据孤岛。这一阶段就是数字化发展初级阶段需求,随着国际的一些先进企业管理思维及流程逐步被国内企业应用,人们认识到数据流通的真正价值。比如一个员工数据,只要人力部门收集这些数据后,可以在企业内不同的部门调取使用,无需来回收集登记。
而如今,数据的价值日益凸显,我们需要更多的技术来对数据进行分析,我们如果只停留在粗放式的使用上,将无法满足企业管理要求,如某一个客户数据收集通过不同的渠道收集信息,有网站搜集、线下登记、主动链接、市场活动推广、电话广告等,通过对这些客户数据渠道来源不同进行分析,能够有效定位出客户会员的吸收方式,精细化到管理每一位潜在客户的信息来源,降低企业无效成本,提高企业前期的推广效率,这就是数据精细化管理的价值。
前面讲到数据精细化管控时伴随数据在组织中越来越重要,这是能够纳入企业资产管理的必要前提,数据精细化管理的诉求,首先就是梳理清楚数据与数据之间相互交错的关系,一个数据从生产、通过转换变换、流转流通,加工变形,又生成新的数据,变化复杂无序,我们如何去抓住这些数据间不变的DNA特性,像人类DNA一样。
针对这些错综复杂的数据,在数据管理的过程中我们也经常会遇到以下的一些常见问题:
常见问题
- 我看到的整个表中的数据是从哪里来的?
- 因为一些需求的变化,我需要对源头系统的数据表进行修改,但我却不知道哪些表、哪些应用会受到影响?
- 表A依赖以来那张表存在,为什么我的表突然就显示不正常,或者数据异常了呢?
以上这些日常问题其实归纳起来主要体现在数据管理中的以下三点:
(1)数据对象间的关系难以展现。通常我们使用的数据中台划分层级会按照数据主题域划分,分为基础层数据ODS,公共层数据主题域,应用层数据主题域。各层数据之间又相互关联,纵横交错,但管理者无法直观地看到各层数据之间的演化过程,我们只能看到数据的最后静态结果,并无法知道数据整个加工过程,因而很难对数据产生信服。
(2)数据质量可追溯性。数据质量问题的产生,需要逐级查询,特别针对多个元数据加工出来的复杂数据,如一个数据需要基于多个元数据加工形成时,我们很难直观快速地判断出具体是因为哪一个数据产生的问题而导致数据最终失准。
(3)数据影响定位。随着企业数据应用的深入,对于大型集团企业来看,自身数据系统可能上百个,当数据源发生变化时,如何快速评估数据源数据变化导致哪些下游系统受到数据影响,快速找出这些数据覆盖的业务场景范围,提前做出数据预测和解决,极大提高数据变革产生的约束影响
要解决数据管理中的这些问题,势必需要组织具备数据管理精细化管理思维和专业能力,数据血缘的梳理以及数据血缘工具的应用能很好地提升这方面的专业能力。数据血缘核心要求是梳理清楚数据与数据之间的关系,从数据生产到消费全过程的关系,形成一张数据血缘关系网,一般梳理数据血缘我们通常采用实现血缘信息数据的手动采集与自动化采集。业务便要梳理清楚数据的产生逻辑、数据的使用逻辑以及业务线之间的关联关系,BI分析师需要清晰的知道数据字段的引用及对应关系。
数据作为新型生产力要素已经走上新时代的舞台,数据对于企业的重要性日益凸显,这让我们必须想方设法地深刻研究数据与数据之间的关系,进而极大的提升我们对数据的利用,基于数据血缘的这样一个理念,我们来研究某个数据它从哪里来,经过怎样的加工,最终形成什么样的数据,对于这样的数据关系,我们称之为数据血缘关系。数据血缘关系和一般的数据关系有着本质的不同,它主要是指数据在产生、处理、流转到消亡过程中,数据之间形成的一种类似于人类社会血缘关系的数据关系。
02
什么是数据血缘
是什么让企业领导认为数字化是鸡肋,让数据部门价值难体现?首先我们来聊一下“价值”这个数字化的核心点,究竟数字化为企业创造了多少价值?数据部门因数字化得到了哪些提升?是数字化成就了数据部门,体现了数据部门的价值?还是数据部门让数字化发挥了作用?
“血缘”最早源自人类社会,指的是由婚姻或生育所形成的人际关系,例如父母和子女的关系、兄弟姐妹关系以及其他亲属关系的派生关系。血缘关系是与生俱来的先天关系,在人类社会的早期就已存在,是最早形成的社会关系之一。血缘关系的远近取决于带有相同遗传基因的概率,可以分为一级亲属,即基因相同概率为二分之一;二级亲属,基因相同概率为四分之一;三级亲属,基因相同概率为八分之一。人类的血缘关系是最基本和稳定的社会关系,是与生俱来的,无法被外部环境改变的一种关系。
而数据血缘是基于这一定义的延伸,英文中称为Data Lineage。Lineage一词通常用于指代血统,意味着”来自祖先的直系血脉“。根据微软公司的定义,Lineage被翻译为”数据沿袭”。如果您在文献中看到类似”数据血统”、”数据血脉”、”数据继承”、”数据谱系”等词汇,都可以指代数据血缘(Data Lineage)。在数据库表和字段的背景下,Lineage用于追踪经过转换和加工后的数据的源头。例如,Power BI Service的数据流服务提供了类似的数据追踪功能。
国外维基百科对数据血缘的定义是:数据血缘包括数据的来源、发生情况以及随时间移动的位置。数据血缘提供了可见性,同时极大地简化了在数据分析过程中将错误追溯到根本原因的能力。
Techopedia网站对数据血缘的定义是:数据血缘是一种数据生命周期,包括数据的来源以及随时间移动的位置,还包括数据在不同过程中发生的情况。数据血缘有助于分析信息的使用方式,并跟踪关键信息的特定需求。
全球领先的咨询公司IBM对数据血缘的定义是:数据血缘是跟踪数据流随时间的推移而发生的过程,它清晰地了解数据的来源、变化方式以及数据管道中的最终目的地。数据血缘分析工具提供了整个数据生命周期的记录,包括源信息以及应用于任何ETL或ELT过程中的数据转换。这种类型的文档使用户能够观察和跟踪数据旅程中的不同接触点,从而使组织能够验证数据的准确性和一致性。它通常用于获取有关历史过程的上下文以及将错误追溯到根本原因。
全球领先的数据管理软件提供商Informatica对数据血缘的定义是:数据血缘本质上是帮助确定组织数据来源的过程。它提供持续和不断更新的记录,记录数据资产的来源、在组织中的流动方式、转换方式、存储位置、访问者以及其他关键元数据。简单来说,数据血缘回答了”这些数据从何而来,又将流向何方“。它是对数据流的可视化表示,有助于跟踪数据从源头到目的地的路径。它解释了数据流中涉及的不同过程及其依赖关系,其中元数据管理对于捕获企业数据流和跨云和本地数据传输至关重要。
在国内,人们普遍理解数据血缘为数据全生命周期过程中的数据关系,包括数据特征的变化,即数据的来龙去脉。主要内容包括数据的来源、数据的加工方式、映射关系以及数据的流出和消费结合国内外知名机构的理论基础,这里讲述的数据血缘概括来讲即数据全生命周期过程中,一个数据到另外一个数据的继承传递,在不同阶段、时点、节点数据的关系的传递,包含数据的来源、数据的加工转换、数据的传递,数据的映射关系等。如,生产者在表1中是数据A流转到表2形成数据B,最终再形成表3的数据C,提供用户,那研究B数据时,我们就清晰知道数据B从A流入,然后流往C,而A、B、C之间形成的一个关系流向,我们就称之为数据血缘关系。核心是用户在某个节点上看数据时,能清晰的知道该数据对象从哪里来,要到哪里去的问题。
数据表流向图
03
什么是数据血缘分析
我们不得不面临这样一个困境:在许多企业领导的眼中,数据治理只是一次性的投入,但实际上,
关于数据分析百科的定义是这样的:“数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,将它们加以汇总和理解并消化,以求最大化地开发数据的功能,发挥数据的作用。数据分析是为了提取有用信息和形成结论而对数据加以详细研究和概括总结的过程”,而数据血缘分析就是针对数据分析中的血缘关系做分析。
我们来看下面两个场景。
场景一:假如你要买一辆车,但是你对市场上的车并不了解,你需到网上收集一些购车的信息,并对这些信息做一些分析和筛选,比如你对车的品牌、性能、价位,做一个优先级排序,如你的预算是20W,你可以选择BYD、大众、日产、本田的某某系列,通过这些清单,你比较关注的是性价比高,低油耗,保养方便,通过这样的一些指标罗列,你选择了三款车型,然后带着这些疑问去S4店做实际体验,最终通过货比三家,最终买到了你心仪的汽车。这其实就是我们身边最常见的一个数据分析运用场景。
场景二:你是某大型企业的数据分析师,某天早上刚到公司,就收到业务领导消息:我的管理驾驶舱报表数据又不对了,到底哪里的数据发生变化,需要你给一个答复。于是繁忙的一早上就开始了,你先是查到数据背后涉及关联的指标多达28个,针对昨晚ETL更新的数据做出对比,发现其中有12个发生了变化,于是你再排查了这12个数据的数据来源分别为4个数据源,最终你分别找了4个数据源系统的人员排查数据为何发生变化,花了一上午的时间终于找到了数据发生错误的原因。原来是源头A系统录入了错误数据,导致流入到最终的管理驾驶舱数据发生了错误。
就这样一个问题的排查,因为数据来源复杂,可能就花费了我们一天的时间甚至有的可能几天,于是我们开始思考能否将这些排查的数据流向都展示出来,发现异常数据及时预警标注颜色。当我们看到某一个数据异常时,就可以通过线上的溯源,准确找到和定位到具体的数据问题,以便提高问题解决效率,这样将极大提升终端用户使用体验。
血缘分析中的源头分析主要是针对上游数据信息进行分析,用于追溯数据的来源和加工过程。血缘的影响分析是分析数据的下游数据流转信息,用于掌握数据变更可能造成的影响。数据血缘全链分析包含了数据血缘分析+血缘影响分析,用于展现数据的来龙去脉,以及数据生命全周期数据过程的变化。
血缘分析是一种技术手段,用于全面追踪数据处理过程,以找到与特定数据对象有关的所有相关元数据对象,并揭示这些元数据对象之间的关系。这些关系主要指表示这些元数据对象之间的数据流输入输出关系。通过进行血缘追踪,可以根据整合的数据库或视图,获取结果数据的来源信息,并跟踪数据在数据流中的变化过程,以反映原始数据库的更新。数据血缘分析包含以下三个方面的内容:
数据全链条分析图
数据血缘分析跟踪数据从源头生产端到消费使用方的全过程数据变化,跟踪其间的所有数据转换,血统分析一般采用图形方式展示,流转过程中产生并记录的各种信息进行采集、处理和分析,对数据之间的血缘关系进行系统性梳理、关联、并将梳理完成信息进行存储,最终结果可视化工具进行展示。数据血缘分析可以解决数据多方面问题,如数据信任,数据理解,数据影响、数据合规。数据血缘分析通常需要借助工具或系统展开,手工记载最简单的方式血缘分析是在Excel上实现的数据血缘分析表。
数据血缘分析通常会按数据血缘的层级进行,层级基于业务需求和某些数据特性可能有差别,常见的分析层级为应用(业务系统)级、数据(表/文件)级和字段级。数据血缘分析的目标是实现数据来源的精确追踪、流转过程的准确还原、数据去向的精准定位。
04
什么是数据血缘分析
数据血缘分析通常会按数据血缘的层级进行,层级基于业务需求和某些数据特性可能有差别,常见的分析层级为应用(业务系统)级、数据(表/文件)级和字段级。数据血缘分析的目标是实现数据来源的精确追踪、流转过程的准确还原、数据去向的精准定位。
数据血缘可视化(Visualization)是利用计算机图形学和图像处理技术将数据转换为图形或图像,并在屏幕上进行显示和交互处理的理论、方法和技术。它涵盖了计算机图形学、图像处理、计算机视觉、计算机辅助设计等多个领域,成为研究数据表示、数据处理、决策分析等一系列问题的综合技术。数据可视化的优点如下:
- 用户接受度更高:人脑对图形的处理比文字信息更容易。使用图表来概括复杂数据可以确保更快、更节省接受时间的理解关系,相比混乱的报告或电子表格更具效果。
- 增强用户互动:数据可视化的主要优势是能够及时突出关注点和风险问题。与静态图表不同,可视化应用可以进行动态操作,使数据表达的问题更加清晰易懂。
- 强化数据关联:数据可视化应用可以更紧密地呈现数据之间的各种联系方式,通过数据图表的形式描绘直接或间接关联的数据组之间的关系。
在完成血缘分析后,需要依靠可视化技术将分析结果以清晰直观的方式传递给用户,帮助他们进行二次分析和具体应用。数据血缘图谱是血缘分析中最常用的可视化方案之一。
业务需求的差异将决定血缘分析的层次和血缘层级的差异,这差异会在数据血缘图谱中得到体现。因此,数据血缘图谱可能需要根据不同的血缘层级进行分层展示,以直观地展示应用层级、数据层级和字段层级之间的数据血缘关系。在具体应用中,虽然业务需求差异和可采集分析的血缘信息会影响数据血缘图谱的呈现方式,但整体形态基本一致:以某个数据为核心节点,展示该节点的数据来源、数据去向、流转路径以及路径中的处理方式。
在数据血缘可视化视图中,应至少包含以下元素:数据节点,主节点,数据流出节点,数据流转线路,数据标准规则,转换规则节点,数据归档销毁规则节点,如图示:
05
总结
随着数据资产入表政策的相继落地,政府、企事业单位以及各企业对于数据的管理必然越来越重要,未来企业数据管理的趋势将更加强调精细化,而实现数据精细化管理的关键之一在于深入利用数据血缘技术。随着企业对数据价值的认识不断提高,对数据的管理需求也日益复杂。数据血缘技术通过追踪数据的源头、流向和转换过程,构建了数据的关系网络,使得企业能够更全面、准确地理解和掌握数据的各个层面。
数据血缘的引入为企业管理提供了一种全新的视角,将帮助企业深入了解数据的生成、传递和变化过程,从而实现对数据的精细化管控。通过数据血缘技术,企业能够追溯数据的每一个环节,从而更好地管理数据质量、确保数据安全,进而提高决策的准确性和效果。数据血缘技术的应用不仅可以帮助企业发现潜在的数据质量问题,还能够提高数据治理的效率。企业可以通过对数据血缘的分析,及时识别和解决数据管理中的瓶颈和风险,从而更好地适应日益复杂和变化的业务环境。
诚然,未来企业数据管理需要朝着精细化方向发展,而数据血缘技术的引入将成为实现这一目标的重要手段,推动企业迈向数字化转型的新阶段。
免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。 本文来自网络,若有侵权,请联系删除,如若转载,请注明出处:https://itzsg.com/55216.html