元数据管理和数据资产管理(数据地数据资产管理)
编辑导语:作为数据中台的重要根基,数据资产绝对值得重视。那么,如何针对数据资产进行管理?我们首先需要了解当下数据资产管理过程中面临哪些问题,并了解数据消费者的需求。本篇文章里,作者针对数据资产管理这一问题进行了总结,一起来看一下。
数据资产是数据中台的重要根基,没有资产的数据中台是无源之水,就只能叫做数据工具。在数据中台架构中,数据资产建设、管理、治理是重头戏。
那么数据资产到底该如何管理,怎样治理呢?本文主要分享资产管理模块,后期输出资产建设流程规范、资产治理相关内容。
数据资产所处数据中台中的位置
一、企业数据资产管理面临的问题数据资产的用户场景可以概况为两类,找数据和管数据。找数据主要是数据分析、产品运营等数据消费者,基于数仓加工好的数据进行分析、应用。找数据时,主要的痛点如下:
1)数据找不到
数据生产者和消费者会存在业务上的天然屏障。对于很多一线的业务同学并不能第一时间数据的输出。例如,一个新入职的产品要做产品首页的改版,想先分析下目前页面各个流量入口的点击与转化情况,只能去问其他的PM或者去找数据同学,流量数据是哪个数据表,事件埋点规则又在哪里?
2)数据不敢用
数据处理逻辑不清楚,业务找到了订单数据在XX表中,但是对订单状态的枚举值含义不清楚,或者不知道营收的数据计算口径,不敢用,只能咨询表的负责人。
数据质量问题,搞数据的人都知道数据质量是数据团队的生命线,但是却又是无法避免的老大难问题,故障出得多了,用户拿到数据的第一反应是先和数据人员确认下,今天数据没问题吧。
管数据,主要是数据开发者,他们的目标是让自己生产的数据可以更安全地被更多人复用,在实践过程中,面临的问题主要是以下几种。
1)用户咨询多
用户用数据找不到或者找到了数据不敢用,就只能向数据负责人进行咨询,不同人的相同问题,或者不同问题。每天处理用户问题可能就要花个几个小时。
2)数据复用低
数据中台建设要解决的也是数据复用问题,对于数据工作者经常遇到做好了数据模型使用者寥寥无几的问题,有酒香但巷子深无人知晓的因素,也有部门墙、数据安全限制因素。
3)价值感知弱
数据开发者做了很多的数据模型,但不知道有多少人在使用,用到了哪里,产生了多少业务价值。数仓开发不生产数据,只是数据的搬运工,“工具人”的感受强烈。
4)问题排查路径长
用户反馈数据异常时,需要翻代码,对数据加工链路进行追根溯源,排查路径长,消耗时间久。
5)工作评估难
作为数据管理者,对于资产最关心的莫过于建设的怎么样,如何评估数据工作的成果。做了很多的数据模型,绩效就应该好吗?
二、数据消费者与生产者的诉求1. 找数据
数据消费端,通过数据地图寻找目标数据,进行分析或者数据应用。
1)业务场景
- 不知道所需要的数据在哪里,“逛数据”,发现目标;
- 知道表名或字段信息,确认数据逻辑或元数据信息。
2)用户
- 核心用户:数据分析、数据挖掘、数据开发;
- 重要用户:产品、运营;
- 覆盖用户:业务开发、商务等。
3)产品诉求
- 资产分级分类,提供简单易用的资产“地图”导航,快速找到目标表;
- 强大的搜索功能,可以基于关键词、字段、指标搜索目标表;
- 元数据信息完善,辅助决策,确定表是不是所需要用的,能不能用,以及逻辑说明。
2. 管数据
数据生产者,负责数据加工处理,对数据质量、资产元数据、资产管理负责。
1)业务场景
- 维护表元数据信息;
- 数据资产审计,管理用户权限、使用日志;
- 数据治理,针对数据表的使用情况,定期下线不用表或者冷数据归档;
- 追根溯源:数据质量异常通知下游,数据问题快速排查定位问题。
2)用户
3)产品诉求
- 元数据维护操作简单、快捷,支持批量操作;
- 可以清楚的知道自己负责的资产元数据覆盖、用户使用情况;
- 平台提供方便的数据追踪、溯源的功能,可以快速定位数据血缘。
3. 数据团队管理者
评价数据资产业务价值、数据对业务支撑或赋能效率,对数据开发人员进行量化考核。并对数据资产的健康度、数据成本进行管控。
1)业务场景
- 评价数据资产建设的到底怎么样;
- 数据人员工作量化考核;
- 平台健康度管控,降本增效。
2)用户
3)产品诉求
- 能够提供资产健康度评价的全面的指标,如模型覆盖度、复用度、元数据完善度、数据质量等;
- 资产责任人到人,可以量化考核每个数据开发者的工作数量和质量。
三、数据地图需要具备的数据资产管理能力
1. 资产大盘
资产大盘按照不同角色的用户,提供从总体到部门(租户)以及个人的资产视图,主要作用是客观描述资产现状,并且以健康度评价体系,提供资产建设优化指引。主要服务于数据工作者及管理团队。例如:
- 资产数量:资产总数、新增数量、治理数量;
- 资源消耗:存储资源、生产消耗计算资源;
- 健康度:元数据覆盖度100%表占比、数据质量异常数、高耗时任务及列表、跨层引用数、近90天无访问数;
- 治理维度:治理资产数量、治理效果、待治理数量。
图:阿里数据地图
2. 数据探索
数据检索方式包括基于业务域、主题、标签等层级筛选,表中英文、字段信息搜索,以及热门推荐、个人收藏、数据专题等快捷方式。
在实际应用时,搜索功能是第一优先级的,至少要先让用户能够精准触达目标。因为业务域划分、主题标签维护很难做到没有二义性,让用户可以顺利筛选出目标数据。表的元数据信息是指可以给找数据的用户提高更加全面、准确的业务元数据、技术元数据等一系列的信息。包括:
- 基本信息:如表中英文名称、负责人、业务描述、字段中英文、分区字段、字段处理逻辑、业务域、主题、标签层级;
- 数据预览:提供示例数据预览功能,可以快速查看字段内容或结构;
- 产出信息:产出时间、任务耗时及趋势、最后更新时间;
- 数据血缘:数据表上下游,一键通知能力;
- 数据质量:数据质量监控规则覆盖、最新监控结果是否正常;
- 数据审计:表使用信息、变更记录。
图:阿里数据地图
3. 资产管理
资产管理主要是面向资产创建者,对所负责的资产进行业务元数据、技术元数据的维护及配置,对资产健康度负责。数据地图需要的功能包括:
- 元数据信息维护:业务描述、字段描述、业务逻辑、审批流程配置;
- 元数据更新:表结构变更,如字段删减、新增;
- 批量配置:批量授权、批量修改主题、层级;权限移交、复制;
- 数据治理流程:主要建立和数据质量监控、数据质量等平台的联动,做到跟进用户使用情况,快速跳转至治理平台,一键治理(归档、下线、删除)。
4. 配置管理
提供业务域、数据层级、主题、标签配置,以及部门(租户)公共参数配置能力,主要服务于数据仓库或数据资产管理员,负责资产层级、架构以及创建流程规范的规划。
5. 个人工作台
个人资产盘点,例如有权限的资产,是否有权限即将到期,需要进行批量续期。自己负责的资产,用户权限列表、资产使用分析。
代办事项:数据资产管理要建立从上到下的管理和考核机制,否则资产创建时,为了图快不进行元数据信息维护,就必然会导致资产复用度低。资产大盘服务于资产管理者,提供不同维度的资产健康度评价指标。而个人代办则提供每个资产创建者,需要关注的优化任务,例如元数据覆盖不足100%,近XX天无访问,任务耗时长,跨层引用等等。
四、总结数据资产管理是提升企业数据复用度的重要数据产品之一,在产品规划和设计时,需要从用户需求场景以及产品目标出发,提供更快速找到数据,以及更方便维护资产信息的能力,同时,为数据工作的量化考核以及开发人员的工作改进提供指引方向。阿里Dataworks、网易猛犸、火山引擎都提供了商业化的数据地图产品解决方案可供参考。
#专栏作家#
数据干饭人,微信号公众号:数据干饭人,人人都是产品经理专栏作家。专注数据中台产品领域,覆盖开发套件,数据资产与数据治理,BI与数据可视化,精准营销平台等数据产品。擅长大数据解决方案规划与产品方案设计。
本文原创发布于人人都是产品经理,未经作者许可,禁止转载。
题图来自Unsplash,基于CC0协议
,
免责声明:本文仅代表文章作者的个人观点,与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺,请读者仅作参考,并自行核实相关内容。文章投诉邮箱:anhduc.ph@yahoo.com