摘要: 本文是一份针对初学者介绍什么是大数据分析的笔记📒,涵盖了大数据分析的定义、能力体系、产生与发展、应用背景。笔记源自大数据学习实践课(中级),其中的配图来自:课程ppt或者当时听课自制的思维导图🍃每当面对专业迷茫时,大数据导论的大饼🫓总是让我遐想拥有改变世界的能力hhh…
一、大数据分析的定义
- 数据分析是基于商业等目的,有目的的进行收集、整理、加工和分析数据,提炼有价值信息的过程
- 大数据分析即针对海量的、多样化的数据集合的分析
- 过程
○ 需求分析、目标明确
○ 数据收集、加工处理
○ 数据分析、数据展现
○ 分析报告、提炼价值
二、大数据分析的能力体系
数学、统计学知识
○ 数据分析的基础,是整理、描述、预测数据的手段,
○ 是抽象为数据模型的理论知识传统分析
○ 在数据量较少时,传统的数据分析已经能够发现数据中包含的知识
○ 包括结构分析、杜邦分析等,传统分析方法成熟,应用广泛行业经验
○ 行业经验可在数据分析前确定分析需求
○ 分析中检验方法是否合理,以及分析后指导应用,行业不同,应用也不相同工具支撑
○ 数据分析等工具,将分析模型封装,使不了解技术等人也可以实现数据建模,快速响应需求机器学习
○ 通过计算机自学习,发现数据规律,但结论不易控制数据挖掘
○ 数据挖掘是挖掘数据背后隐藏的知识都重要手段分析误区
○ 不了解分析模型的数学原理,会导致错误地使用模型,得出错误的分析结论,影响业务决策
- 此需深入了解模型原理和使用限制
三、大数据分析的产生与发展
3.1 如何减少空尽被击落概率
○ 幸存者偏差(Surviorship Bias)
Wald教授提出了完全相反的观点:加强机身和机尾部分的防护
● 统计的样本只是平安返回的战机
● 被多次击中机翼的飞机,似乎还是能够安全返航
● 而在机身机尾的位置,很少发现弹孔的原因并非真的不会中弹,而是一旦中弹,其安全返航的几率极小
● 仅仅依靠幸存者做出判断是不科学的,有时候非幸存者才是关键
- Abraham Wald(1902-1950)
3.2 关系数据库
1970年IBM的埃德加·科德(Edgar Codd,1981年图灵奖获得者)
- 发表了跨时代的著名论文”A relational Model of Data for Large Shared Data Banks”,开启了关系数据库的时代
- 该模型是大多数数据库系统的基础
- Edgar Frank Codd(1923-2003)
基于关系数据库的系统开始大量地应用企业业务
- 例:材料需求计划(MRP)系统,就代表了计算机最早的主流商业用途之一,用于提高日常物料管理的效率
在计算机的辅助下,人类处理信息地速度空前地加快了
3.3 商业智能的出现
1958年,IBM研究员Hans Peter Luhn将商业智能定义为“能够理解所呈现的事实之间的相互关系,从而引导行动朝着预期目标前进的能力”
- 1970年代,随着用于分析商业和操作性能的软件和系统的兴起,“商业智能”的受欢迎程度也越来越高。
Gartner Group 在九十年代发展了BI的概念:商业智能提供了使企业迅速分析数据的技术和方法
- 包括收集、管理和分析数据,将这些数据转化为有用的信息,然后分发到企业各处。
为了将数据转化为知识,需要利用数据仓库、联机分析处理(OLAP)工具和数据挖掘等技术。
- 因此,从技术层面上讲,商业智能不是什么新技术,它只是数据仓库、OLAP和数据挖掘等技术等综合运用。
3.4 商业营销理论的发展
20世纪60年代,市场营销学开始快速发展
- 营销学之父,菲利普·科特勒教授出版了《营销管理》一书,提出4Ps理论
●4Ps阐释
在管理理论等指导下,数据被大量应用到企业管理等方方面面
- 市场研究公司开始出现,企业的数据文化开始培育。
随着顾客数据越来越全面4Cs理论出现,要求对顾客进行全方位的了解
- 全方位了解
● 4Cs阐释
3.5 互联网的崛起
3.6 大数据产生根源
计算机等发展➕互联网和物联网等发展
3.7 技术基础
3.8 数据基础
3.9 技术发展阶段
3.10 大数据分析开源框架
在存储层
- HDFS已经成为了大数据磁盘存储的事实标准
计算处理引擎方面
- Spark已经取代MapReduce成为了大数据平台统一的计算平台
- 在实时计算领域Flink是Spark Streaming强力竞争者
在数据查询和分析领域
- 形成了丰富的SQL on Hadoop的解决方案
在可视化领域
- 敏捷商业智能(business intelligence,BI)
四、大数据分析的应用场景
4.1 数据挖掘技术
4.2 制造业
4.3 媒体
○ 针对不同用户调整消息(广告)和内容(文章)
4.4 数据安全
○ 互联网加速了恶意软件传播
■ Deep Instinct公司表示,每一个新恶意软件都会与之前版本几乎相同的代码-每次迭代之有2%到10%的内容会改变。
■ 他们的学习模式可以非常准确地预测哪些文件是恶意软件
4.5 个人安全
○ 机器学习用于安全检查
■ 可以避免人类会漏掉的东西,而且显著加快流程
4.6 金融交易
○ 许多著名的交易公司都使用专有系统来预测和执行高频交易。
■ 当模型涉及及消耗大量数据或者需要交易的速度时,人类不可能与机器竞争
2010年前的瑞银交易大厅
2017年的瑞银交易大厅
4.7 卫生保健
○ 医学影像是医生判断疾病的一个重要手段,利用深度学习算法,
■ 在人类医学专家的帮助下,在心血管、肿瘤、神内、五官等领域建立了多个精准深度学习医学辅助诊断模型,取得看良好的进展
- 2016年谷歌发表在美国医学杂志(JAMA)关于糖尿病视网膜病变
4.8 个性化营销
○ 对顾客的了解越多,就可以为他们提供更好的服务,并且销售得越多,这是营销个性化的基础。
■ 当你访问电商并查看某个产品之后,在后面的数天里,整个网络上都可以看到和该产品相关的数字广告,但这只是营销个性化的冰山一角
4.9 欺诈识别
○ 例如:PayPal利用机器学习来打击洗钱行为
■ 该公司拥有比较数百万笔交易的工具,可以精确区分买方和卖方之间的合法交易和欺诈交易。
4.10 推荐
○ 亚马逊或Netfix,通过智能机器学习算法分析客户的活动将其与数百万其他用户比较
■ 以确定可能想要购买的东西或下一次消费,这些建议一直在变得越来越聪明
- Netfix利用大数据成功打造了《纸牌屋》
4.11 在线搜索
○ 每次用户在Google上执行搜索时,该程序都会监视用户对结果的响应方式。
- 如果点击结果并保留在该网页上,可以假设用户获得了要查找的信息。
- 如果用户点击第二页的结果,或者在不点击任何结果的情况下输入新的搜索字符串,可以推测搜索引擎没有提供您想要的结果-
- 程序可以从这个错误中学习,在未来提供更好的结果
4.12 自然语言处理
4.13 智能汽车
🌿至此大数据分析理论基础笔记📒就介绍完啦~
-------------本文结束感谢您的阅读-------------
本文链接: http://example.com/2023/05/22/什么是大数据分析/
版权声明: 本作品采用 知识共享署名-非商业性使用-相同方式共享 4.0 国际许可协议 进行许可。转载请注明出处!