摘要: 数据挖掘期末复习简答题(自用),包括数据仓库与数据挖掘概述、OLAP和多维数据模型、数据仓库设计、关联分析算法、决策树分类算法、贝叶斯分类算法、神经网络算法、回归分析算法、时间序列分析、聚类算法🍃
第一章 数据仓库与数据挖掘概述
(1)简述数据仓库具有哪些主要的特征
面向主题:数据仓库是按照一定的主题域进行组织,反映用户使用数据仓库进行决策时所关心的重点方面,如客户、产品、销售等。
是在一个较高的管理层次上对信息系统的数据按照某一具体的管理对象进行综合、归类所形成的分析对象。集成性:数据仓库中存储的数据一般是从企业原有的数据库系统中提取出来的,但不是对原有数据的简单拷贝,而是经过了抽取、筛选、清理、转换、综合等工作。
稳定性(非易失性):数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,数据仓库在某个时间段来看是保持不变的。一旦某个数据进入数据仓库以后,一般情况下将被长期保留。
随时间而变化即时变的:数据仓库大多关注的是历史数据,其中数据是批量载入的,即定期从操作型应用系统中接收新的数据内容,这使得数据仓库中的数据总是拥有时间维度。系统记录了企业从过去某一时点到目前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。
(2)简述数据仓库与传统数据库的主要区别
数据仓库与传统数据库的主要区别在于以下几个方面:
- 数据来源:数据仓库是将来自多个源系统的数据集成到一个统一的数据存储中,以支持更复杂的分析和决策。而传统数据库则是对特定业务应用程序的数据进行管理存储。
- 数据结构:数据仓库通常采用星形、雪花形等复杂的数据模型,以支持多维度查询和分析。而传统数据库通常采用关系型模型(RDBMS),以支持事务处理和数据的增删改查。
- 数据处理:数据仓库通常包括数据抽取、转换和加载等复杂的ETL过程,以保证数据的质量和一致性。而传统数据库则不需要这样的过程。
- 数据使用:数据仓库的目的是为了支持高级别的分析和决策,因此,它通常设计用于读取,分析和查询大量数据的操作。而传统数据库则更侧重于支持交易处理,如数据的增删改查等操作。
两者相辅相成,各有千秋
总之,数据仓库和传统数据库在数据处理和使用方面有很大的差异,数据仓库更适合于处理大量数据,支持多维度查询和分析,对于辅助决策非常有帮助。而传统数据库则更加适合于数据的增删改查等操作,是支持业务应用程序的关键数据管理工具。
(3)简述数据仓库的体系结构
数据仓库的体系结构一般分为以下三个层次:
- 数据源层:数据源层包括多个内部和外部的数据源系统,如企业日常的交易系统、客户关系管理系统、供应链管理等系统。这些系统可以通过不同的技术手段进行数据抽取并进行处理,包括数据清洗、转换和集成等操作以确保数据质量。
源数据:此层数据无任何更改,直接沿用外围系统数据结构和数据,不对外开放;为临时存储层,是接口数据的临时存储区域,为后一步的数据处理做准备。
- 数据存储层:数据存储层是数据仓库的核心,用于保存来自不同数据源的数据,并且结构化为星型或雪花型的维度模型。此外,为了提高数据查询效率,还会使用索引和分区技术等进行优化。
数据仓库:也称为细节层,DW层的数据应该是一致的、准确的、干净的数据,即对源系统数据进行了清洗(去除了杂质)后的数据。
- 数据访问层:数据访问层是用户与数据仓库进行交互的接口。数据访问层一般包括多个OLAP和BI工具,可以为用户提供多种查询功能,如标准报表、分析性查询、在线分析等,便于用户进行数据分析和决策。
按照数据流入流出的过程,数据仓库架构可分为:源数据、数据仓库、数据应用
数据仓库的数据来源于不同的源数据,并提供多样的数据应用,数据自下而上流入数据仓库后向上层开放应用,而数据仓库只是中间集成化数据管理的一个平台。
数据应用:前端应用直接读取的数据源;根据报表、专题分析需求而计算生成的数据。
在实际应用中,数据仓库的架构结构有时还会添加多层数据预处理阶段,比如数据挖掘等,以支持更复杂的数据分析和决策。总之,数据仓库的体系结构设计需要根据企业自身的数据需求和项目实际情况进行优化和调整,以提高数据管理的效率和价值。
(4)简述数据挖掘的基本步骤
数据挖掘的基本步骤通常包括以下几个方面:确定问题、特征选择和提取、模型选择和建立、模型评估和优化、结果解释和应用。
总之,数据挖掘是一个比较复杂的过程,需要在不同的阶段进行多种技术手段的处理,以得到最终有效的结论和结果。
(5)简述在数据挖掘中为什么要进行数据预处理
原始业务数据来自多个数据库或数据仓库,它们的结构和规则可能是不同的,这将导致原始数据非常杂乱、不可用,即使在同一个数据库中,也可能存在重复的和不完整的数据信息,为了使这些数据能够符合数据挖掘的要求,提高效率和得到清晰的结果,必须进行数据的预处理。为数据挖掘算法提供完整、干净、准确、有针对性的数据,减少算法的计算量,提高数据挖掘效率和准确程度。
第二章 OLAP和多维数据模型
(1)简述OLAP的定义和特性
OLAP是一种软件技术、它使分析人员能够迅速、一致、交互地从各个方面观察信息,以达到深入理解数据的目的。这些信息是从原始数据转换过来的,按照用户的理解,它反映了企业真实的方方面面。
OLAP的主要特性是快速性、可分析性、多维性和交互性。
- 多维性:OLAP技术是面向主题的多维数据分析技术。主题涉及业务流程的方方面面,是分析人员、管理人员进行进行决策分析所关心的角度。分析人员、管理人员使用OLAP技术,正是为了从多个角度观察数据,从不同的主题分析数据,最终直观的得到有效的信息。
- 可理解性或可分析性:为OLAP分析设计的数据仓库或数据集市可以处理与应用程序和开发人员相关的任何业务逻辑和统计分析,同时使它对于目标用户而言足够简单。
- 交互性:OLAP帮助用户通过对比性的个性化查看方式,以及对各种数据模型中的历史数据和预计算数据进行分析,将业务信息综合起来。用户可以在分析中定义新的专用计算,并可以以任何希望的方式报告数据。
- 快速性:指OLAP系统应当通过使用各种技术,尽量提高对用户的反应速度。而且无论数据库的规模和复杂性有多大,都能够对查询提供一致的快速响应。合并的业务数据可以沿着所有维度中的层次结构预先进行聚集,从而减少构建OLAP报告所需的运行时间。
(2)简述星型模型、雪花模型和事实星座模型各有什么特点
- 星型模型:是数据仓库建模中最简单和最常用的一种模型,它由一个事实表和多个维度表组成。事实表包含了需要分析的指标数据,如销售额、利润等;维度表则包含了描述事实表数据的维度,如时间、地点、产品等。星型模型具有简单、易用的特点,适合于简单的数据分析场景。
星型模式核心一个大的事实表,周围小的维度,形状如星星 - 雪花模型:在星型模型的基础上进行了优化,将多个维度表进一步细化,使其变为多个分层的维度表。这样做可以避免数据冗余和数据不一致问题,但也导致查询复杂度增加,需要更多的联接操作。雪花模型适用于数据量较大、查询需求比较复杂的情况。
雪花模式是星型模式的进一步延伸,延伸/下钻成更小的维度表(颗粒度),像是雪花一样蔓延 - *事实星座模型:是星型模型和雪花模型的折中方案。它将多个星型模型连接在一起,每个星型模型都代表了一个小的数据集。这样做既保留了星型模型的简单性,又解决了雪花模型中数据冗余和不一致问题。事实星座模型适用于大规模数据集,但需要考虑复杂的数据关系和查询优化问题。
多个星型构成一个星座,分离的事实表,共用维度表,像是宇宙星辰
第三章 数据仓库设计
(1)简述数据仓库设计的步骤
数据仓库设计的步骤为:数据仓库规划与需求分析、数据仓库建模、数据仓库物理模型设计、数据仓库部署与维护。
(2)简述数据仓库物理模型设计的主要内容
- 星型模型是最简单的建模技术,它采用一张平面表来表示事实和维度之间的关系。其中,事实表是存储业务事实的核心表,维度表则包含与该事实相关的业务维度信息。
星型模型的主要特点是:简单、易于理解、容易维护和查询速度较快。但同时也存在一些不足,如无法处理多对多关系、维度表数据过大等问题。
- 雪花模型是在星型模型基础上的延伸,通过对维度表进行分解,将其变成多个标准化的表,从而减少了数据冗余。这样可以减小维度表的大小,并且更好地支持数据层次结构。但由于需要对维度表进行分解,因此查询时需要进行多次连接操作,导致查询速度相对较慢。
- 事实星座模型是星型模型的扩展,它通过将一个事实表拆分为多个较小的事实表(即事实星座),来减少数据冗余。每个事实星座都包含了共同的维度表,可以根据维度的不同组合,来查询相应的事实星座。这种模型设计的主要特点是:灵活性、可扩展性好、效率较高。但由于需要在数据仓库中存储多个事实表,因此也会带来一定的维护成本。
第五章 关联分析算法
(1)简述关联规则挖掘的任务
挖掘关联规则就是找到事务数据库D中的强关联规则,常用的判断标准有2个:
- 最小支持度(包含)
- 最小置信度(排除)
挖掘强关联规则两个基本步骤如下:
- 找频繁项集:通过用户给定最小支持度阈值min_sup,寻找所有频繁项集,即仅保留大于或等于最小支持度阈值的项集。
- 生成强关联规则:通过用户给定最小置信度阈值min_conf,在频繁项集中寻找关联规则,即删除不满足最小置信度阈值的规则。
支持度和置信度分别满足用户指定的最小支持度阈值min_sup和最小支持度置阈值min_conf的关联规则。
(2)简述Apriori性质
Apriori性质:若A是一个频繁项集,则A的每一个子集都是一个频繁项集。
频繁项集的所有非空子集也必须是频繁的。
这是频繁项集的先验知识,可以减少候选频繁项集的数量。
第六章 决策树分类算法
(1)什么是决策树?如何用决策树进行分类?
决策树是用样本的属性作为结点,用属性的取值作为分支的树结构。它是利用信息论原理对大量样本的属性进行分析和归纳而产生的。
决策树的根结点是所有样本中信息量最大的属性。树的中间节点是以该节点为根的子树所包含的样本子集中信息量最大的属性。决策树的叶结点是样本的类别值。
决策树用于对新样本的分类,即通过决策树对新样本属性值的测试,从树的根节点开始,按照样本属性的取值,逐渐沿着决策树向下,直到树的叶结点,该叶结点表示的类别就是新样本的类别。决策树方法是数据挖掘中非常有效的分类方法。
决策树是一个预测模型,它代表的是对象属性与对象值之间的一种映射关系。树中每个节点表示某个对象,而每个分叉路径则代表某个可能的属性值,而每个叶节点则对应从根节点到该叶节点所经历的路径所表示的对象的值。
一个决策树包含三种类型的节点:
- 决策节点:通常用矩形框来表示
- 机会节点:通常用圆圈来表示
- 终结节点:通常用三角形来表示
决策树是一树状结构,它的每一个叶节点对应着一个分类,非叶节点对应着在某个属性上的划分,根据样本在该属性上的不同取值将其划分成若干个子集。对于非纯的叶节点,多数类的标号给出到达这个节点的样本所属的类。构造决策树的核心问题是在每一步如何选择适当的属性对样本做拆分。对一个分类问题,从已知类标记的训练样本中学习并构造出决策树是一个自上而下,分而治之的过程。
(2)简述决策树的优点
决策树分类方法所需时间相对较少;决策树的分类模型是树型结构,简单直观,比较符合人类的理解方式;决策树中从根结点到达每个叶结点的路径转换为IF-THEN形式的分类规则,这种形式更有利于理解。
缺点:
决策树学习者可以创建不能很好的推广数据的过于复杂的数,因为会产生过拟合。
第七章 贝叶斯分类算法
(1)为什么朴素贝叶斯成为“朴素”?简述朴素贝叶斯分类的主要思想
朴素贝叶斯成为“朴素”,是因为它做了一个很强的假设,即特征之间是条件独立的,这个假设使得模型变得简单,但有时会牺牲一定的分类准确率
朴素贝叶斯分类的主要思想为:利用贝叶斯定理,计算未知样本属于某个类标号值的概率,根据概率值的大小来决定未知样本的分类结果。
朴素贝叶斯分类的主要思想是利用贝叶斯定理,计算后验概率 p (类别|特征) ,并选择概率最大的类别作为预测结果。
具体来说,就是根据训练数据,估计先验概率 p (类别) 和条件概率 p (特征|类别) ,然后根据贝叶斯定理,求出后验概率 p (类别|特征) = p (特征|类别) * p (类别) / p (特征) ,由于分母对于所有类别都相同,所以只需比较分子部分,即 p (特征|类别) * p (类别) ,并选择最大的那个类别作为输出。
第八章 神经网络算法
(1)简述神经元的特点
也称为感知机,具有以下特点:
- 输入:神经元接收输入信号,该信号通过加权和进行加权处理;
- 激活函数:在加权和的基础上,使用激活函数对输出进行非线性变换,以增加网络模型的表达能力;
- 权值:神经元具有一组权重,这些权重表示输入信号对输出的影响程度;
- 偏置:神经元还具有一个偏置项,用于增加模型的灵活性;
- 输出:神经元将经过加权和和激活函数处理后的结果作为输出传递给下一层神经元或输出层。
第九章 回归分析算法
(1)简述回归分析的基本步骤
回归分析是利用数据统计原理,对大量统计数据进行数学处理,并确定因变量与某些自变量的相关关系,建立一个相关性较好的回归方程,并加以外推,用于预测今后的因变量的变化的分析方法。
第十章 时间序列分析
(1)简述时间序列分析的作用
时间序列分析是指利用统计学和计量经济学方法对一系列按时间顺序排列的数据进行分析的过程。
其作用主要体现在以下几个方面:掌握趋势和周期、预测未来趋势、检验数据的稳定性、评估政策效果。
时间序列分析具有对历史数据的分析和未来预测的能力,在许多领域如经济、金融、营销、物流等都有广泛的应用。
第十一章 聚类算法
(1)什么是聚类?聚类算法由哪些主要类型?
聚类是将数据对象划分为相似对象组的过程,使得同一组中对象相似度最大而不同组中对象相似度最小。
主要的聚类算法类型有基于划分的算法、基于层次的算法、基于密度的算法、基于网格的算法和基于模型的算法。
🌿总算整理完期末数据挖掘分析题啦~
-------------本文结束感谢您的阅读-------------
本文链接: http://example.com/2023/06/03/数据挖掘期末复习简答题(自用)/
版权声明: 本作品采用 知识共享署名-非商业性使用-相同方式共享 4.0 国际许可协议 进行许可。转载请注明出处!