来源微信微信官方账号:计算机学院学生
本文发表于《光明日报·中华读书报》2022年2月9日18版
石
几年前,一部被中国网民戏称为《白宫风云》的美国政治悬疑剧《纸牌屋》火遍网络。它的制片人是网飞,一个类似于优酷的美国在线视频广播平台。可以说,该剧的每一步都是以平台所拥有的大数据为指导——从数千万观众的客观喜好大数据中分析出“拍什么、谁来拍、谁来演、怎么播、什么时候播”等所有有用信息,并据此一步步制作出一部热播剧。《纸牌屋》的成功让世界各地的文化产业意识到了大数据的魔力,也让其他行业纷纷瞄准了大数据这座无形的金矿。
2020年新冠肺炎疫情的爆发以及随后的疫情反复让全中国的人们体验到了“出行码+健康码”等大数据的价值和力量。在疫情防控常态化的形势下,大数据作为健康出行的守护神,也为科学防控、复工复产、民生保障提供了有力支撑。
大数据的定义多而杂,不同的企业和行业从自己的角度定义大数据,含义都差不多。总之,大数据由庞大的数据集组成,其规模在可接受的时间内超过了普通软件的采集、管理、处理和使用能力。
虽然大数据的定义并不统一,但国际知名咨询公司IDC定义的大数据四大特征被业界广泛接受,即4V特征——数据量大、种类多、数据价值密度低、数据生成和处理速度快。
首先是数据量
传感器、物联网、工业互联网、车联网、手机、平板等。,都是数据来源或者携带方式。在当今的数字时代,人们的日常生活(微信、QQ、网络搜索和购物等。)正在产生大量的数据。
大数据不再以GB或TB来衡量,而是以PB(1000 T)、EB(100万T)或ZB(10亿T)来衡量,从TB跳到PB、EB甚至ZB。顾名思义,这是大数据的首要特征。
第二,数据的多样性
大数据不仅体现在数量的快速增长上,还体现在各种数据类型上,可分为结构化、半结构化和非结构化数据。结构化数据存储在关系数据库中,多年来关系数据库一直是IT应用的主流。半结构化数据包括电子邮件、文字处理文件和大量在线新闻等。是基于内容的,这也是谷歌和百度存在的原因。然而,随着社交网络、移动计算和传感器等新技术的应用,非结构化数据广泛存在于社交网络、物联网和电子商务中。
报告显示,全球结构化数据和非结构化数据的增长率分别为32%和63%,网络日志、音视频、图片、地理位置信息等非结构化数据量约占80%,并在逐渐增加。然而,这些非结构化数据往往是产生人类智能的大数据。
第三,数据价值密度低
大数据的重点不在于其数据量的增长,而在于信息爆炸时代数据价值的重新发现。如何挖掘出大数据的有效信息至关重要。
该值与数据总量成反比。虽然价值密度低是大数据越来越突出的特征,但是大数据的研究、分析和挖掘仍然具有深刻的意义,大数据的价值仍然不可估量。毕竟价值是推动一切技术(包括大数据技术)研发的内生决定性驱动力。
第四,数据生成和处理速度快
根据美国互联网数据中心的数据,企业数据正以每年55%的速度增长,互联网数据每年将增长50%,每两年翻一番。IBM的研究表明,整个人类文明获得的所有数据的90%都是在过去两年中产生的。
对数据处理速度快的要求也是大数据区别于传统数据挖掘技术的本质特征。有学者提出了与之相关的“一秒定律”,即上一秒有用的数据,下一秒可能就失效了。数据的价值不仅与数据规模有关,还与数据处理速度成正比,即数据处理速度越快越及时,其效率和价值就越大。
大数据的关键技术大数据技术是IT领域的新一代技术和架构,是从各类数据中快速获取有价值信息的技术。大数据的本质也是数据,其关键技术仍然不外乎:大数据采集和预处理;大数据存储和管理;大数据分析和挖掘;大数据呈现与应用(大数据检索、大数据可视化、大数据安全等。).
一、大数据采集与预处理技术
大数据技术的意义真的不在于掌握大规模的数据信息,而在于智能处理这些数据来分析挖掘出有价值的信息,但前提是你有大量的数据。
收集大数据是价值挖掘最重要的部分。一般通过传感器、通信网络、智能识别系统和软硬件资源接入系统实现各类海量数据的智能识别、定位、跟踪、接入、传输和信号转换。为了快速分析和处理,大数据预处理技术要对各种类型的数据进行提取、清洗和转换,将这些复杂的数据转化为有效的、单一的或易于处理的数据类型。
即使是大数据服务企业,对于“未来哪些数据会成为资产”这个问题,也很难给出确切的答案。但可以肯定的是,谁有足够的数据,谁就能掌握未来,现在的数据收集就是未来流动资产的积累。
二、大数据存储和管理技术
数据的分类方法有很多种,包括结构化、半结构化和非结构化。还有元数据、主数据和业务数据。还可以分为GIS、视频、文本、语音、商务交易等各种数据。基于的传统关系数据库已经不能满足数据多样性的存储要求。除了关系数据库,还有两种存储类型,一种是以HDFS为代表的分布式存储系统,可以直接应用于非结构化文件存储,另一种是NoSQL数据库,可以存储半结构化和非结构化数据。大数据存储和管理就是利用这些存储技术来存储收集到的数据,并对其进行管理和调用。
在一般的大数据存储层,关系数据库、NoSQL数据库、分布式存储系统都可能存在,业务应用根据实际情况选择不同的存储模式。为了提高业务存储和读取的便利性,可以将存储层封装成一组统一访问的数据即服务(Data as a Service,DaaS)。DaaS可以完全分离业务应用程序和存储基础架构。用户不需要关心底层存储细节,只关心数据访问。
第三,大数据分析与挖掘技术
大数据分析与挖掘是从大量不完整、有噪声、模糊、随机的实际应用数据中提取有用信息和知识的过程。大数据分析挖掘涉及的技术方法有很多:根据挖掘任务可以分为分类或预测模型发现、关联规则发现、依赖关系或依赖模型发现、异常和趋势发现等。按照挖掘方法可以分为机器学习、统计方法、神经网络等。其中,机器学习可以细分为归纳学习、遗传算法等。统计方法可以细分为回归分析、聚类分析和探索性分析。神经网络可以细分为前馈网络、反馈网络等。
面对不同的分析或预测需求,所需的分析挖掘算法和模型是完全不同的。上面提到的各种技术方法,只是一种处理问题的思路。当面对真实的应用场景时,这些算法和模型不得不根据需要进行调整。
第四,大数据呈现与应用技术
大数据的使用者远不止程序员和专业工程师。如何将大数据技术的分析结果展示给普通用户或公司决策者,取决于数据展示的可视化技术,这是目前解释大数据最有效的手段之一。在数据可视化中,数据结果以简单的可视化、图形和智能的形式呈现给用户进行分析。常见的大数据可视化技术有标签云、历史流、空之间的信息流等。
我国大数据应用广泛存在于商业智能、政府决策、公共服务等关键领域,大数据可以为疫情防控、反电信诈骗、智能交通、环境监测等日常生活场景做出贡献。
大数据时代对我们驾驭数据的能力提出了新的挑战,也为我们获得更全面、更睿智的洞察提供了空的空间和潜力。大数据领域涌现出大量新技术,成为采集、存储、处理和展示大数据的有力武器。随着大数据等新兴技术的发展和应用,中国“十四五”规划提出的二氧化碳排放峰值下的碳中和、数字化转型、数字经济等一系列战略目标将得到更大的技术支持。