廖华
分享
发布于

什么是大数据?

廖华:清华大学应用数学系。中国企业改革与发展研究会研究员,曾任职某世界500强企业产品总监,擅长IoT、网络安全和大数据、企业管理应用、SaaS平台的架构和运营,熟悉IPD,业务型技术管理者。

版权所有,转载请联系作者;10万个为什么 3.0 丛书    

        大数据首先是工业和科技上的概念,个人一般数据不会达到大数据层面,在工业化向信息化、智能化转变的过程中,在某些领域内(数字化生产、科学研究、社交媒体、互联网运营、物联网生产等),在数据管理上遇到一些问题,导致传统的数据管理不能满足要求。比如以下问题:

传统数据特征

        传统的简单数据管理,如班级的考试成绩,相关的数据如班级数,学生数、教师数、考试数目,成绩数目等,有以下特征:

        1. 数据量小(1000以下级别),且数据产生频次较低;

        2. 数据关联性简单,表单数据少,容易自动寻找数据关系;

        3. 数据要求简单,实时性差,比如考试成绩可以在3天内批改统计完成;

        4. 数据格式简单,都是文本(如姓名、课程、老师名称等),或者数据值(成绩、时间等);

        5. 数据处理简单,针对学生成绩做简单的统计,汇总各科成绩等。

        但这些数据处理能力和方式,都不能满足现代数字化大生产的要求。

大数据特征

        现代数字化大生产,是以大数据为处理基础的,大数据的特征为以下几个:

        1. 数据量巨大,而且持续产生数据;

        以电商平台双十一数据为例,数据量巨大,商品数、订单数、交易数都巨大,而且持续产生,传统的数据管理无法应对。

        2. 数据种类多,而且内在关联性强;

        以运营商(电信、移动、联通)为例,内部有数十个上百个不同系统,不同系统起不同作用,而这些系统也是有关联的,给不同部门不同角色人员使用,针对不同活动有不同的业务分支,数据在一定规则下是相关的统一的,这些传统的数据管理无法应对。

        3. 数据要求高,很多时候需高速实时性处理;

        以12306(中国铁路客户服务中心12306.cn)为例,每张订票数据,都要实时进行同步处理,需要支持全国数亿用户的同时订票买票,查询余票等,传统的数据管理无法应对。

        4. 数据非结构化,需要统一处理

        以某安全视频监控系统为例,对视频监控的识别处理、对人脸库识别比对,这些信息处理已经超出了传统的数据处理范畴,传统数据处理主要基于数字、文本文字等的处理,无法满足要求。

        5. 数据价值挖掘需要更加智能的方式。

        数据价值挖掘是数据价值产生的重要方式,传统的数据价值挖掘主要有两个特点:

        专家系统:在进行数据挖掘时候,传统方式往往需要大量的某个领域专家水平的知识与经验。根据专家的的知识与经验,进行推理和判断,从而得到更优的结果。

        如医疗领域的X光机相片分析,往往是通过专家来进行分析,对相应部位的X光进行分析判断,分析异常,确定病灶,提出相关资料方案等。

        基于大数据的人工智能是解决方案,如上文提到的X光相片分析,现有的人工智能能够基于X光相片的学习,报告病例、资料方案的学习,能够自动进行分析和判断,最终给出最合理的方案。

        以下为大数据流的示意图,展示从数据采集到最终分析和可视化的整个过程:

浏览 (107)
点赞
收藏
分享
评论