阿里数据银行分析师考试答案题库(大数据中的技术概念)

编辑导语:相信大家平时用大数据处理产品的时候,会被各种专业技术术语搞得晕头转向,然后就一头雾水了。在本文中,作者对大数据中常用的一些技术术语进行了总结和分类。感兴趣的朋友不妨看看,说不定会用到。



大数据处理产品中经常会遇到一些专业术语,这里总结一下。

阿里数据银行

一、数据源类型

1.宽桌子与窄桌子

宽表:指有很多字段的数据库表。它通常指的是一个数据库表,其中与业务实体相关的指标、纬度和属性链接在一起。

它广泛用于数据挖掘模型训练前的数据准备。通过将相关字段放在同一个表中,可以极大地提供数据挖掘模型训练时迭代计算的消息问题。

虽然提高了数据查询的效率,但是冗余很多。

窄表:三种范式严格按照数据库设计。数据冗余减少了,但是修改一个数据可能需要修改多个表。

数据库设计的三种范式:

  • 确保每个列保持原子性;
  • 确保表中的每一列都与主键相关;
  • 确保每一列都与主键列直接相关,而不是间接相关。
  • 2.关系型数据库

    MySQL是一个关系数据库管理系统。关系数据库将数据存储在不同的表中,而不是将所有数据放在一个大仓库中,这提高了速度和灵活性。它是目前最流行的关系数据库管理系统之一。

    3.神谕

    Oracle是一个关系数据库管理系统。一直是数据库领域的领先产品。该系统便于携带,易于使用,功能强大。适用于各种大、中、小型计算机环境。

    这是一种高效率、高可靠性和高吞吐量的数据库方案。

    4.南大通用

    GBase是南大通用数据技术有限公司推出的自有品牌数据库产品,在国内数据库市场具有较高的品牌知名度。

    5.数据库

    HBase是一个分布式、面向列的开源数据库。

    不同于一般的关系数据库,它是一种适合非结构化数据存储的数据库。另一个区别是HBase的基于列的模式,而不是基于行的模式。

    6.文件传送协议

    FTP(File Transfer Protocol,文件传输协议)是一套网络文件传输标准协议,可以访问远程资源,实现用户的往返文件传输、目录管理、电子邮件访问等,即使双方计算机可能配备不同的操作系统和文件存储方式。

    7.分布式文件系统

    HDFS是一个Hadoop分布式文件系统。HDFS具有高容错性的特点,设计用于部署在廉价的硬件上。

    此外,它提供了访问应用程序数据的高吞吐量,这适用于具有非常大的数据集的应用程序。

    二、数据计算

    1.大数据计算服务

    MaxCompute是一种大数据计算服务,可以提供快速、全托管的PB级数据仓库解决方案,可以经济高效地分析处理海量数据。

    2.弗林克

    Flink是一个框架和分布式处理引擎,用于无界和有界数据流的有状态计算。

    Flink设计用于在所有常见的集群环境中运行,以内存速度和任何规模执行计算。

    3.卡夫卡

    Kafka是一个高吞吐量的分布式发布-订阅消息系统,可以处理网站中消费者的所有动作流数据。

    4.离线计算与实时计算

    离线计算:也就是俗称的“批处理”,指的是那些离线批量、高延迟的静态数据处理过程。

    离线计算适用于实时性要求不高的场景,如离线报表、数据分析等。通用计算框架:MapReduce、Spark SQL

    实时计算:也称为“实时流计算”和“流计算”,是指实时或低延迟的流数据处理过程。

    实时计算通常用于实时性要求较高的场景,如实时ETL、实时监控等。通用计算框架:Spark Streaming,Flink

    5.OLTP与OLAP

    OLTP(联机事务处理):可称为联机事务处理,一般用于联机业务交易系统,如银行交易、订单交易等。

    OLTP的主要特点是可以支持频繁的在线操作(添加、删除和修改)和快速访问查询。

    OLAP(联机分析处理):可称为联机分析处理,广泛应用于数据仓库领域,支持复杂查询的数据分析,侧重于为业务提供决策支持。

    目前常见的实时OLAP场景,如Druid(Apache Druid,不同于阿里Druid)、ClickHouse等存储组件更能满足需求。

    三、分布式相关

    1.大数据

    Hadoop是由Apache基金会开发的分布式系统基础设施。用户可以开发分布式程序,而不需要了解分布式的底层细节。充分利用集群的力量进行高速操作和存储。

    2.分布式文件系统

    HDFS是一个Hadoop分布式文件系统。细节已在前一节介绍过了。

    3.储备

    Hive是一个基于Hadoop的数据仓库工具,用来提取、转换和加载数据。

    这是一种可以存储、查询和分析Hadoop中存储的大规模数据的机制。

    Hive数据仓库工具可以将结构化数据文件映射到一个数据库表中,并提供SQL查询功能,可以将SQL语句转换成MapReduce任务执行。

    4.数据处理

    MapReduce是大规模数据集(大于1TB)并行操作的编程模型。

    “Map”和“Reduce”这两个概念是他们的主要思想,这两个概念都是从函数式编程语言借来的,还有从向量编程语言借来的特性。

    它极大地方便了程序员在分布式系统上运行自己的程序,而无需分布式并行编程。

    5.火花

    Spark是专门为大规模数据处理设计的快速通用计算引擎,类似于Hadoop MapReduce的通用并行框架,具有Hadoop MapReduce的优点。

    但是,与MapReduce不同的是,——Job的中间输出可以存储在内存中,因此不再需要读写HDFS。所以Spark更适合数据挖掘、机器学习等需要迭代的MapReduce算法。

    四、数据仓库

    1.介绍

    数据仓库(全称:数据仓库;简称DW/DWH),是为了进一步发掘数据资源,满足决策的需要而产生的,是建立在大量数据库存在的基础上的。

    它是一个完整的理论体系,包括ETL(提取-转换-加载)、调度和建模。

    2.与数据库的差异

    数据仓库是专门为数据分析而设计的,它涉及到读取大量数据,了解数据之间的关系和趋势。数据库用于捕获和存储数据。

    3.分层

  • ODS(Operation Data Store):数据源层,数据仓库源系统的数据表通常是原封不动地存储的,称为ODS层(可以理解为原始数据库),它是后续数据仓库处理数据的来源。数据来源:业务库、隐藏日志、消息队列。
  • DWD(数据仓库细节):数据细节层是业务层和数据仓库之间的隔离层。对ODS数据层做一些数据清理和标准化操作。数据清理:删除空值、脏数据和超出限制范围的数据。
  • DWB(Data Warehouse Base):数据基础层,存储客观数据,一般作为中间层,可以看作是大量指标的数据层,可以理解为知识库字典和常用标准库。
  • DWS(Data Warehouse Service):数据服务层,基于DWB上的基础数据,集成汇总成一个服务数据层,用于分析某个主题领域,一般是一个宽表。提供后续业务查询、OLAP分析、数据分发等。
  • ADS(应用数据服务):应用数据服务。该层主要为数据产品和数据分析提供数据,对于线上系统一般存储在es、mysql等系统中。
  • 4.资料图

    在数据搜索的基础上,提供了表说明、数据类别、数据血缘、字段血缘等工具,帮助数据表的用户和所有者更好地管理数据,协同开发。

    5.数据血缘

    即数据的上下文,主要包括数据的来源、数据的处理方式、映射关系和数据的导出。

    数据血缘是元数据的一部分,明确的数据血缘是数据平台稳定的基础,更有利于数据变更影响分析和数据问题调查。

    本文由@丸子不爱吃丸子原创发布。每个人都是产品经理。未经许可,禁止转载。

    图片来自Unsplash,基于CC0协议。

    您可以还会对下面的文章感兴趣

    使用微信扫描二维码后

    点击右上角发送给好友