什么是大数据处理的主要方式?

2024-06-17 03:39 来源:能进科技网

一、什么是大数据处理的主要方式?

1. 大数据处理之一:采集

大数据的采集是指利用多个数据库来接收发自客户端(Web、App或者传感器形式等)的 数据,并且用户可以通过这些数据库来进行简单的查询和处理工作。比如,电商会使用传统的关系型数据库MySQL和Oracle等来存储每一笔事务数据,除 此之外,Redis和MongoDB这样的NoSQL数据库也常用于数据的采集。

在大数据的采集过程中,其主要特点和挑战是并发数高,因为同时有可能会有成千上万的用户 来进行访问和操作,比如火车票售票网站和淘宝,它们并发的访问量在峰值时达到上百万,所以需要在采集端部署大量数据库才能支撑。并且如何在这些数据库之间 进行负载均衡和分片的确是需要深入的思考和设计。

2. 大数据处理之二:导入/预处理

虽然采集端本身会有很多数据库,但是如果要对这些海量数据进行有效的分析,还是应该将这 些来自前端的数据导入到一个集中的大型分布式数据库,或者分布式存储集群,并且可以在导入基础上做一些简单的清洗和预处理工作。也有一些用户会在导入时使 用来自Twitter的Storm来对数据进行流式计算,来满足部分业务的实时计算需求。

导入与预处理过程的特点和挑战主要是导入的数据量大,每秒钟的导入量经常会达到百兆,甚至千兆级别。

3. 大数据处理之三:统计/分析

统计与分析主要利用分布式数据库,或者分布式计算集群来对存储于其内的海量数据进行普通 的分析和分类汇总等,以满足大多数常见的分析需求,在这方面,一些实时性需求会用到EMC的GreenPlum、Oracle的Exadata,以及基于 MySQL的列式存储Infobright等,而一些批处理,或者基于半结构化数据的需求可以使用Hadoop。

统计与分析这部分的主要特点和挑战是分析涉及的数据量大,其对系统资源,特别是I/O会有极大的占用。

4. 大数据处理之四:挖掘

与前面统计和分析过程不同的是,数据挖掘一般没有什么预先设定好的主题,主要是在现有数 据上面进行基于各种算法的计算,从而起到预测(Predict)的效果,从而实现一些高级别数据分析的需求。比较典型算法有用于聚类的Kmeans、用于 统计学习的SVM和用于分类的NaiveBayes,主要使用的工具有Hadoop的Mahout等。该过程的特点和挑战主要是用于挖掘的算法很复杂,并 且计算涉及的数据量和计算量都很大,常用数据挖掘算法都以单线程为主。

二、移动大数据怎么被采集的?

数据采集,又称数据获取,是利用一种装置,从系统外部采集数据并输入到系统内部的一个接口。在互联网行业快速发展的今天,数据采集已经被广泛应用于互联网及分布式领域,比如摄像头,麦克风,都是数据采集工具。

数据采集系统整合了信号、传感器、激励器、信号调理、数据采集设备和应用软件。在数据大爆炸的互联网时代,数据的类型也是复杂多样的,包括结构化数据、半结构化数据、非结构化数据。结构化最常见,就是具有模式的数据。非结构化数据是数据结构不规则或不完整,没有预定义的数据模型,包括所有格式的办公文档、文本、图片、XML, HTML、各类报表、图像和音频/视频信息等等。大数据采集,是大数据分析的入口,所以是相当重要的一个环节。

相关文章

  • 重庆移动 大数据
    重庆移动 大数据

    一、重庆移动 大数据 重庆移动 是中国移动通信集团公司的一个分支机构,致力于在通信行业领域不断创新发展。大数据作为信息时代的核心资源之一,已...

    2024-11-04
  • 广东 移动 大数据
    广东 移动 大数据

    一、广东 移动 大数据 广东移动 一直以来致力于利用先进的技术和创新的思维来提升服务质量和用户体验。随着时代的发展和科技的进步,大数据逐渐成为...

    2024-11-04
  • 浙江移动 大数据
    浙江移动 大数据

    一、浙江移动 大数据 在当今数字化时代,大数据已成为企业发展和竞争的关键。浙江移动作为中国领先的通讯运营商之一,也在积极探索如何利用大数据...

    2024-10-28
  • 怎么把程序源码与UI结合?
    怎么把程序源码与UI结合?

    一、怎么把程序源码与UI结合? 把程序源码与UI结合的方法: 首先为您的测试资产设置和组织文件夹结构。您需要将不同的资产彼此分开,例如测试、名称...

    2024-10-28
  • 移动大数据平台金点子
    移动大数据平台金点子

    一、移动大数据平台金点子 移动大数据平台金点子的重要性 在当今信息爆炸的时代,大数据已经成为各行各业的核心竞争力。随着移动互联网的不断发展...

    2024-10-24