数据目录:三大目录
在以往的项目实践中基本上都是将数据目录分为三大类数据资源目录、数据资产目录、数据产品目录。一、数据资源目录数据资源目录主要是各业务系统的元数据信息。它的作用是让数据加工者快速、便捷、统一的了解企业中各个业务系统的元数据信息。目标技术资产管理回答“我们有哪些物理表在哪个库在哪个系统谁在管”数据资源目录一般情况下将业务部门作为一级目录业务系统名称作为二级目录比如人力资源管理部下有招聘系统、考勤系统、绩效系统、福利系统等等。通过各业务元数据信息我们可以将所有业务系统的数据资源获取到形成所有业务系统的数据资源全景进而将数据资源目录的主体给构建出来。将采集好的元数据信息分别挂载到相关系统目录下在哪个系统采集的就挂载到哪里。看图上挂载的内容均为ODS层物理表为什么挂ODS层物理表不挂源系统的物理表信息呢下面做个解释优点缺点源系统物理表从业务源头开始管理理论上最完整可以覆盖所有数据来源能够直接反映业务系统的数据资产便于从业务视角进行盘点。源系统通常由不同的业务部门或供应商管理数据团队可能没有管理权限难以实现自动化采集和实时更新。源系统的数据格式、结构多样难以统一管理。无法直接管理数据团队负责的ODS、DWD等分层的数据资源不利于数据平台的运维。ODS物理表ODS是数据入湖后的第一站是数据团队直接管理和运维的对象。从ODS开始数据已经结构化、规范化便于统一管理。可以方便地追踪到下游的数据加工链路DWD、DWS等因为后续分层都是基于ODS加工而来。存储成本、计算任务、数据质量监控都可以从ODS层开始管控。无法直接关联到源系统当需要追溯业务源头时信息缺失。如果源系统发生变更无法直接评估对ODS层的影响需要额外的文档或知识。选择ODS层的根本原因是责任对等你管理你能负责的东西运维必需解决数据团队日常工作中的实际问题信息完整ODS元数据可包含源系统关键信息成本控制直接关联到数据平台的资源消耗二、数据资产目录数据资产目录形成完善的企业数据资产地图在一定程度上为企业数据治理、业务变革提供了指引。基于数据资产目录识别数据管理责任解决数据问题争议帮助企业业务改革进行规划设计避免重复建设。目标业务化治理与协同。让业务人员能看懂、能找到、能信任数据解决“业务与技术语言不通”的问题。根据《华为数据之道》将数据资产分为5层涵盖企业的所有数据资产而“业务对象”是数据资产目录及信息架构中最重要的管理要素。业务对象是企业重要的人、事、物承载了业务运作和管理涉及的重要信息是业务视角和IT视角的 联结纽带。业务对象可以划分业务的责任边界、明确数据owner、指引IT系统设计。数据资产目录与数据模型之间的关系如下图L4逻辑数据实体主要关联数据湖中分层的是DWD、DIM、DWS层。数据资产目录挂载的也是逻辑实体物理表只是逻辑实体的落地实践。是否挂载数据资产目录DWD全部进数据资产目录DIM全部进数据资产目录DWS核心汇总表进入资产目录业务线专用汇总进数据产品目录三、数据产品目录数据产品目录是一个面向数据消费者的服务化门户。它不展示原始数据和加工中的数据而是展示已封装好、可直接用于解决业务问题的数据服务。数据资产目录回答我们有哪些数据数据产品目录回答这数据能做什么数据产品目录何鑫挂载层是ADS层应用数据层ADS本身就是为特定的应用而建天然就是产品。还有当DWS层汇总数据被封装为标准服务时也应该纳入产品目录。一个生动的例子在资产目录中你找到的是“客户主数据”实体了解到它的定义、包含哪些字段、质量如何。在产品目录中你找到的是“客户360查询API”直接看到调用文档、试用接口并一键申请使用权限。这个API的背后很可能就封装了“客户主数据”等多个资产实体。数据产品目录应成为企业内部数据消费的“一站式商店”任何业务人员或开发者都能在这里快速找到、理解、申请并使用他们需要的数据能力从而真正释放数据价值推动业务创新。