摘要: 📝本文主要是对前几篇博文的问题的提炼,包括大数据的技术基础、参数估计的两种方式、假设检验的六个步骤、线性回归的基本前置假设条件、以及大数据分析处理技术和数据挖掘常用算法的几大类。🍃补充知识在每部分都有对应链接方便查阅~
🌱前言:
大数据是一种无法在可承受的时间范围内,用常规软件工具进行捕捉、管理和处理的数据合集,是需要新处理模式,才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产,具有体量大Volume、种类繁多Variety、价值密度低Value、处理速度快Velocity这四大特征。
一、大数据有哪些技术基础?
大数据时代出现的技术基础:计算机技术的飞速发展
计算机技术:
无线互联网技术:指利用无线电波或卫星信号等无线通信方式实现互联网接入的技术,可以让用户在任何地点都能够上网浏览信息、发送邮件、下载文件等。无线互联网技术包括无线局域网(WLAN)、移动通信网络(如3G、4G、5G)、卫星互联网等。
数据抓取技术:指从互联网或其他数据源中自动提取所需数据的技术,通常使用编程语言或专用软件来实现。数据抓取技术可以用于获取网页内容、图片、视频、音频、社交媒体数据、电子商务数据等,以便进行数据分析、挖掘或应用。
并行处理技术:指利用多个处理器或计算机同时执行多个任务的技术,可以提高计算效率和性能。并行处理技术包括并行算法、并行编程语言、并行架构等,常用于处理大规模的数据或复杂的问题。
高容量存储技术:指能够存储大量数据的硬件或软件技术,通常使用磁盘阵列、固态硬盘、光纤通道、分布式文件系统等来实现。高容量存储技术可以满足大数据的存储需求,提高数据的可靠性和可用性。
数据可视化技术:指将数据以图形、图表、地图等形式展示的技术,可以帮助用户更直观地理解数据的含义和规律。数据可视化技术包括可视化设计原则、可视化工具、可视化方法等,常用于数据分析、报告、教育等场景。
人工智能技术:指使计算机具有人类智能的能力的技术,包括机器学习、深度学习、自然语言处理、计算机视觉、语音识别等。人工智能技术可以让计算机从大量的数据中学习和推理,实现智能决策、智能交互、智能服务等功能。
数据采集:是指将应用程序产生的数据和日志等同步到大数据系统中,常用的技术有Sqoop、Flume、Kafka等。
数据存储:是指将海量的数据存储在分布式文件系统或数据库中,常用的技术有HDFS、HBase、NoSQL数据库、云数据库等。
数据处理:是指对原始数据进行过滤、拼接、转换等操作,以便于后续的分析和应用,常用的技术有MapReduce、Spark、Flink、流计算、图计算等。
数据应用:是指利用处理后的数据进行可视化、分析、预测等服务,常用的技术有Hive、Spark SQL、Impala等。
资源管理:是指对多个任务和服务之间的资源进行协调和调度,常用的技术有YARN、Mesos等。
二、参数估计有哪两种方式?
参数估计有两种方式:点估计和区间估计。
- 点估计:是通过样本构造一个统计量,用它的观察值作为总体参数的近似值。点估计有两种常见的方法:矩估计法和最大似然法。
- 区间估计:是通过样本构造一个统计量,用它的观察值确定一个区间,使得总体参数落在这一区间的概率不低于给定的置信水平。区间估计可以反映出估计的精度和可靠性。
三、假设检验六步骤的主要任务
- 确定要进行检验的假设:
这一步是根据研究问题或目的,提出一个关于总体参数的断言,称为原假设(H0),以及与之相反的断言,称为备择假设(H1)。原假设通常是我们想要证伪或拒绝的假设,而备择假设通常是我们想要证明或接受的假设。
- 选择检验统计量:
这一步是根据总体分布和样本大小,选择一个合适的统计量,用来度量样本数据与原假设之间的差异。常见的检验统计量有z分数、t分数、卡方分布等。
- 用于做决策的拒绝域:
这一步是根据显著性水平(α),确定一个临界值或临界区域,称为拒绝域。显著性水平是指当原假设为真时,犯第一类错误(弃真错误)的概率,通常取0.05或0.01。拒绝域是指当样本数据落在该区域时,我们有足够的证据拒绝原假设。拒绝域的形式取决于备择假设的方向,可以是双侧的、左侧的或右侧的。
- 求检验统计量的p值:
这一步是根据样本数据,计算检验统计量的具体数值,并根据其分布,求出其对应的p值。p值是指在原假设为真的前提下,得到该检验统计量或更极端情况的概率。p值越小,说明样本数据与原假设越不相符。
- 样本结果是否位于拒绝域:
这一步是将检验统计量的数值与拒绝域进行比较,判断是否落在拒绝域内。如果落在拒绝域内,说明有足够低的概率(小于显著性水平)在原假设为真时得到这样的结果,因此我们拒绝原假设;如果不落在拒绝域内,说明没有足够低的概率(大于显著性水平)在原假设为真时得到这样的结果,因此我们不能拒绝原假设。
- 作出决策:
这一步是根据上一步的结果,给出一个明确的结论,即接受或拒绝原假设,并解释其在实际问题中的含义。
四、线性回归的基本前置假设条件
线性回归的四个假设 The Four Assumptions of Linear Regression
线性回归的基本前置假设条件有以下五个:
零均值:残差的均值为零,即模型没有系统误差。
同方差:残差在自变量的每个水平上都有恒定的方差,没有异方差性。
无自相关:残差之间相互独立,没有序列相关性。
正态分布:残差服从正态分布,没有偏度或峰度。
解释变量:自变量之间相互独立,没有多重共线性问题。
这些假设是为了保证线性回归模型的准确性和可靠性,如果违反了这些假设,可能会导致模型的参数估计、标准误、置信区间、假设检验等出现偏差或误导。因此,在进行线性回归之前,应该先检验这些假设是否成立,并根据实际情况采取相应的措施来处理违反假设的问题。
五、大数据分析处理技术有哪些计算场景?
离线:
离线计算是指对海量数据进行批量处理的过程,通常需要较长的时间跨度,如几分钟到数小时甚至数日。离线计算的典型代表是Hadoop MapReduce和Spark,它们可以处理复杂的数据分析任务,如数据清洗、转换、聚合、统计等。在线:
在线计算是指对数据进行快速查询和分析的过程,通常需要较短的时间跨度,如秒级或分钟级。在线计算的典型代表是Spark SQL、Presto和ClickHouse等,它们可以支持多维自助分析、交互式数据探查等场景。流式:
流式计算是指对实时产生的数据进行连续处理的过程,通常需要毫秒级或秒级的时间跨度。流式计算的典型代表是Spark Streaming、Flink和Storm等,它们可以支持实时智能推荐、实时欺诈检测、舆情分析、实时机器学习等场景。
六、数据挖掘常用算法有哪几大类?
分类:
分类算法是指根据已知的数据集,学习出一个分类函数或模型,然后用该函数或模型对新的数据进行分类的过程。分类算法的目标是将数据划分为有限个离散的类别。常用的分类算法有决策树、朴素贝叶斯、支持向量机、K近邻、逻辑回归、随机森林等。聚类:
聚类算法是指根据数据之间的相似性或距离,将数据划分为若干个自然的簇或组的过程。聚类算法的目标是使同一簇内的数据尽可能相似,不同簇间的数据尽可能不同。常用的聚类算法有K均值、DBSCAN、层次聚类、高斯混合模型等。关联规则:
关联规则算法是指从大量的数据集中发现数据项之间的关联性或相关性的过程。关联规则算法的目标是找出频繁出现在一起的数据项,形成如“X=>Y”的规则,表示X和Y经常同时发生。常用的关联规则算法有Apriori、FP-Growth等。时间序列:
时间序列算法是指对按照时间顺序排列的数据进行分析和预测的过程。时间序列算法的目标是找出数据随时间变化的趋势、周期、季节性等特征,并根据历史数据预测未来数据。常用的时间序列算法有ARIMA、LSTM、Prophet等。
🌿至此大数据分析概述的习题笔记📒就介绍完啦~
-------------本文结束感谢您的阅读-------------
本文链接: http://example.com/2023/05/23/大数据分析概述习题/
版权声明: 本作品采用 知识共享署名-非商业性使用-相同方式共享 4.0 国际许可协议 进行许可。转载请注明出处!