大数据应用导论 Chapter1 | 大数据技术与应用概述

  大家好,我是不温卜火,是一名计算机学院大数据专业大二的学生,昵称来源于成语—不温不火,本意是希望自己性情温和。作为一名互联网行业的小白,博主写博客一方面是为了记录自己的学习过程,另一方面是总结自己所犯的错误希望能够帮助到很多和自己一样处于起步阶段的萌新。但由于水平有限,博客中难免会有一些错误出现,有纰漏之处恳请各位大佬不吝赐教!暂时只有csdn这一个平台,博客主页:https://buwenbuhuo.blog.csdn.net/


1、大数据的概念

1、什么是Big Data?

下面是一些机构的定义:
维基百科:
传统数据处理应用软件不足以处理的大型而复杂的数据集;
包含的数据大小超过了传统软件在可接受时间内处理的能力。
互联网数据中心(IDC):
为了能够更经济地从高频率、大容量、不同结构和类型的数据中获取价值而设计的新一代架构和技术。

2、大数据的五大特征

1、数据量巨大(海量)
2、数据类型众多
数据类型多样,包括各种形式的数据。按分类可分为:
①、结构化数据:
Excel文件、csv文件等。
结构化数据为表格形式的数据:每列数据类型相同,切不可再细分。
②、半结构化数据:
邮件、网页、JSON文件、日志文件等。
这些数据的结构和内容混在一起,没有明显的区分。
③、非结构化数据:
图片、视频等
3、处理速度快
①、数据产生非常快,要求处理的速度快;
②、强调实时分析,输入后立即处理;
③、处理速度越快,越有利于创造价值
4、数据来源真实
数据的准确性和可信赖度高
5、潜在价值大
①、有价值的信息分散于海量数据中
②、庞大的数据量隐藏了巨大财富
③、通过数据分析与数据挖掘可豁达价值

2、大数据的历史发展

1

1、物联网(Internet of things)

2

2、云计算(Cloud computing)

3

3、云平台(Cloud Platform)

4

4、云计算的关键技术

①、虚拟化:
将一台计算机虚拟为多台逻辑计算机,每个逻辑计算机可运行不同的操作系统,且应用程序互相独立,显著提高计算机工作效率。
②、分布式存储:
将大数据文件切分为许多快、分散存储再多台机器组成的集群中。
==Tips:==集群是指将几台服务器集中起来进行一项服务。
③、分布式计算:
把一个大数据集切分成多个小数据集,分布到不同的机器上并行处理,极大提高数据处理速度。

5、大数据、云计算和物联网的关系:

5

6、大数据发展大事件

6

3、大数据核心技术

1、数据的采集与存储

大数据应用的流程:
7
数据采集我们一般通过Python网络爬虫进行实现;
关于数据存储和数据清洗的问题,可以采用原始的先存储后清洗,也可以先进行数据清洗,然后进行数据存储。

1、数据采集

数据采集:又称数据获取,从传感器和互联网等渠道自动采集信息的过程。
下面为一些常见的数据采集工具:

1、普通

1、python网络爬虫
Urllib:HTTP请求库,用于请求、下载网页
Requests:基于Urllib,但更加快捷方便
Scrapy:爬虫框架,用于从网页中提取数据
2、Webmagic(Java):垂直爬虫框架,简单爬虫开发流程,专注于逻辑功能的开发。
3、BotnetSpider(C#):国人开源的跨平台、高性能、轻量级爬虫软件,.NET最为优秀的开源爬虫之一

2、分布式采集工具

1、Chukwa(hadoop):用于监控大型分布式系统的数据收集系统,构建在HDFS和Mapreduce之上。
2、Kafka:由Apache开源,高吞吐量的分布式发布订阅消息系统。
3、Flume(Cloudera):分布式的海量日志采集、集合和传输系统。

2、数据存储

数据存储:数据以某种格式记录在计算机内部或外部存储介质上。
数据存储不一定是以文件的形式存储,它可以是以数据库的形式进行存储,由数据库决定,怎样写入到文件中或者怎样保存在内存中。
下列为常见的数据库系统:

1、关系型数据库(SQL)

1、MySQL(小型数据库):最流行的关系型数据库管理系统之一,将数据保存于不同表中。
2、Oracle(大型数据库):甲骨文公司数据库管理系统,高效率、可靠性高、适应高吞吐量。
3、SQL Server:Microsoft公司的数据库管理系统,使用方便、可伸缩性好、与相关软件集成程度高。

2、非关系型数据库(NOSQL)

1、Hbase:高可靠性、高性能、可伸缩的分布式存储系统,可在PC Server上搭建大规模结构化存储集群。
2、MongoDB:介于关系型数据库和非关系型数据库之间的产品,功能丰富;基于分布式文件存储数据库,由C++编写。
3、Redis:一个日志型、高性能Key-Value数据库,数据可以从主服务器向任意数量的从服务器同步。

2、数据清洗与分析

1、数据清洗

数据清洗:为了便于后续的处理和分析,对数据进行的质量诊断、数据整合、数据转换、缺失值处理和异常值处理等操作。

1、数据清洗的方法

1、缺失值处理:对存在缺失的数据进行插补
2、异常值处理:对数据集中存在的不合理值进行处理
3、数据转换:将数据从一种表现形式转换成另一种表现形式

2、数据清洗的工具

1、Mapreduce(Hadoop):基于集群的高性能并行计算框架;并行计算与运行软件框架;并行程序设计模型与方法。
2、Pandas(Python):解决数据分析任务的Python库,提供了诸多数据清洗的函数和方法。
3、OpenRefine:数据清洗工具,能够对数据进行可视化操作,类似Excel,但其工作方式更像数据库。

2、数据分析

利用机器学习等技术从数据中构建模型,从而挖掘出有价值的信息。
8

1、数据分析的方法:机器学习

9

2、数据分析的工具

1、Scikit-learn(Python):机器学习库,包含众多机器学习算法,使用方便。
2、Tensorflow:Google开源的深度学习技术,追随者众多,目前最火热的深度学习框架。
3、torch:Facebook力推的深度学习框架,具有较好的灵活性和速度,拥有Python版本Pytorch。
4、Spark:Apache开源的为大规模数据处理而设计的快速通过的计算引擎,拥有机器学习库Mllib。

3、数据可视化

数据可视化是将数据分析的过程与结果用图表等形式进行展示。

10
数据可视化工具:
1、Matplotlib(Python):一个2D绘图库,可以绘制许多高质量的图形
2、Seaborn(Python):Matplotlib基础上的高级绘图库,运用简单的操作就能够画出较为复杂的图形
3、Tableau:一个强大的数据可视化工具,可实时进行可视化数据分析和数据探索
4、Echarts:由百度前端技术部开发的,基于Javascript的数据可视化图表库,提供直观、生动、可交互、可个性化定制的数据可视化图表

4、大数据行业应用

大数据行业的应用比较广泛主要应用到互联网、金融、健康医疗、交通、教育、环境保护等方面。

5、大数据安全概述

大数据时代的数据安全问题:
大数据是当前的热点话题,正逐渐影响着人们的日常生活,大数据在收集存储和使用过程中面临着诸多安全风险,同时大数据导致的隐私泄露也为用户带来严重的困扰。
目前,国家对个人信息进行了立法保护。

  本次的分享就到这里了,


11

  好书不厌读百回,熟读课思子自知。而我想要成为全场最靓的仔,就必须坚持通过学习来获取更多知识,用知识改变命运,用博客见证成长,用行动证明我在努力。
  如果我的博客对你有帮助、如果你喜欢我的博客内容,请“点赞” “评论”“收藏”一键三连哦!听说点赞的人运气不会太差,每一天都会元气满满呦!如果实在要白嫖的话,那祝你开心每一天,欢迎常来我博客看看。

相关推荐
©️2020 CSDN 皮肤主题: 技术黑板 设计师:CSDN官方博客 返回首页