> 数据资产管理解决方案 > 概述

管理工具

数据湖操作系统

数据湖操作系统主要由GDH(Googosoft Distribution Hadoop Manager)和数据中台构成。GDH是Googosoft Distribution Hadoop Manager的简写,包含整个Hadoop生态体系。主要的组件有HDFS、Yarn、HBASE、Hive、Impala、Spark、Kafka、Sqoop、Oozie、HUE。GDH主要是用来存储全量的结构化数据、半结构化数据和二进制数据。

数据中台的作用,主要是驱动GDH,管理多样化的数据。核心功能包括:创建数据服务接口、界面化定义视图、应用服务化、数据质量检测、元数据管理、数据标准维护、数据交换、流程化数据处理。

 

从数据生命周期来看,数据湖对于数据的处理方式涵盖数据集成、数据存储、数据治理、数据质量、自助数据发现和安全监管,一个管理完善的数据湖中的数据会保留原始数据,同时过程中数据会不断地完善、演化,以满足业务的需要。

1、数据集成:接入不同数据源,自动生成元数据信息,提供统一的接入方式。

2、数据存储:存储的数据量巨大且来源多样,支持异构和多样的存储。自动提取元数据信息,建立统一的数据目录。

3、数据治理:自动提取元数据信息,建立统一的数据目录;建立数据血缘,梳理上下游的脉络关系;数据变更影响范围评估和数据价值评估;提供不同版本的数据,便于进行数据回溯和分析。

4、数据质量:提供数据字段校验、数据完整性分析等功能;实时监控数据处理任务,避免不完备的数据。

5、自助数据发现:提供一系列数据分析工具,包括:联合分析,交互式大数据SQL分析,机器学习,BI报表等等。

6、安全监管:对数据的使用权限进行监管;对敏感数据进行脱敏和加密。

数据湖操作系统具备以下特征:

1、保真性

数据湖操作系统对于业务系统中的数据都会存储一份“一模一样”的完整拷贝。

2、灵活性

使数据保持最为原始的状态,一旦需要,可以根据需求对数据进行加工处理。

3、可管理性

提供完善的数据管理能力,包括:数据源、数据连接、数据格式、数据管理、权限安全管理等能力。

4、可追溯性

对数据的全生命周期进行管理,支持对任意一条数据的接入、存储、处理、消费过程可追溯,能够清楚的重现数据完整的发生过程和流动过程。

5、丰富的计算引擎

支持各类计算引擎,从批处理、流式计算、交互式分析到机器学习,并支持计算引擎的可扩展、可插拔。

6、多模态的存储引擎

内置多模态的存储引擎,以满足不同的应用对于数据访问需求,并且在需要时与外置存储引擎协同工作,满足多样化的应用需求。

 

著作权


 

国子数据中心系统V2.0


 

国子数据标准管理系统V1.0


 

国子数据采集与上报系统V2.0


 

国子数据可视化平台V1.0


 

国子数据中台系统V1.0


百度 搜狗 360搜索 驻美使馆回应美威胁再加征50%关税 王俊凯工作室回应“夜店传闻”:将取证追责 中国经济是一片大海 哈萨克斯坦启动官方旅游数字服务平台建设工作 无人扶我大兵号,我至踏雪向航天!拯救~大兵~成功!

      <code id='972ff'></code><style id='87d0b'></style>
    • <acronym id='5daa1'></acronym>
      <center id='2746b'><center id='825cd'><tfoot id='efda4'></tfoot></center><abbr id='5c746'><dir id='54f6d'><tfoot id='d3ff5'></tfoot><noframes id='1d4e8'>

    • <optgroup id='b3f26'><strike id='f2e4c'><sup id='31d7c'></sup></strike><code id='2d8a8'></code></optgroup>
        1. <b id='ee3a9'><label id='4148b'><select id='d13e3'><dt id='80cf6'><span id='9cc08'></span></dt></select></label></b><u id='1a7e8'></u>
          <i id='07cf8'><strike id='b3a86'><tt id='41d7e'><pre id='6b117'></pre></tt></strike></i>