编辑导语:随着通信技术的发展,网民规模呈现井喷式增长。在此背景下,挖掘大数据管理的价值,实现更好的用户体验和服务,成为当前研究的热点之一。本文对大数据开发管理的架构做了详细的分析,希望对你有所启发。
一、为什么要进行大数据开发与管理随着通信技术的蓬勃发展,互联网、终端数字设备和传感器越来越普及,从而呈现出用户数量的稳步增长和数据量的井喷式增长。《2021年中国互联网统计发展报告》显示,全国网民规模已达10.11亿,数字化应用日益丰富,涉及生活服务、娱乐内容、医疗教育等多个领域。预计2025年全球每天产生的数据将达到491EB。
在此背景下,管理大数据,挖掘其价值,为用户提供更好的体验和服务成为当前的研究热点之一。
用户线上线下行为产生的数据促进功能服务的优化,更好的服务反馈给用户,比如:
通过收集用户的消费记录,提取特征,计算并推荐与用户偏好匹配度较高的商品。通过分析用户群体的行为特征,预测未来的行为发展。这种形式使得“数据”和“服务”相辅相成,形成良性循环,但两者不能直接连接,中间存在各种问题,如:
不同的数据源和各种数据类型。数据质量参差不齐数据可能重复或丢失。不同的服务需要不同的数据。如何提供数据支持,使成本最小化?海量数据消耗存储资源。……
为了解决这些问题,需要构建一个“中间服务”——大数据开发与管理,提供统一的数据采集、处理和管理服务,使数据达到“高质量”、“高效率”、“轻量级”的状态
二、大数据开发与管理分几步大数据开发管理平台可分为数据采集、集成计算、数据管理、数据安全和数据应用五大模块。
1.数据收集
目的:将多源异构数据聚集到数据湖中,等待下一步。

做什么:
日志数据:日志数据可以根据未来的分析需求和追踪需求,通过掩埋的方式收集,使用用户追踪,Aplus收集。JS或者结合相应规格的一些自动埋设工具。其他数据库:其他数据库来源的数据需要根据对方数据库的参数进行配置,建立采集任务,同时需要配置repository表的参数。意外:对于以上两类数据,在采集过程中可能会出现一些意外情况需要处理。比如短时间内来自同一个IP的一些高频访问可能是网络攻击,不能视为正常的操作采集日志;在零附近收集日志时可能会出现数据漂移;数据为空(无效值),需要消除等。图中列出了一些意外处理案例。2.集成计算
目的:清理和检查收集的数据。
做什么:
模型设计:根据上层应用/分析需求设计数据模型,涉及三维模型:维度表(对某事物的描述,如成员数据、产品数据、门店数据),事实表(对某业务流程的描述,如产品采集数据、订单数据),指标数据(基于维度表或事实表中原子指标的派生指标,结合时间段、限制。模型不仅要定义每个表中的字段,还要定义字段规则、更新时间等参数。数据清洗/质量检查:根据字段映射关系和模型设计中的字段规则对数据进行清洗,并根据清洗情况出具相应的质量检查报告。任务调度:根据计算资源、实时性等因素合理调度和分配计算任务。3.数据管理
目的:对原始数据、已处理数据等资源进行分层管理,合理分配存储资源。
做什么:
分级管理:不同阶段产生的数据需要分开管理,这样处理痕迹的每一步都方便后续的历史追溯。主要分为五个部分:ODS(运营数据存储数据源层)、DWD(数据仓库细节数据细节层)、DWS(数据仓库服务数据服务层)、ADS(应用数据服务应用数据服务)和DIM(维度表层)。存储成本管理:由于产生的数据量巨大,需要保留中间处理结果,因此需要对存储成本进行相应的控制。有四种控制方法:数据治理、数据压缩、数据生命周期管理和模型优化。4.数据应用
目的:为外用提供加工数据。
做什么:
应用:为需要数据支持的系统和模块提供服务。首先,需要建立各种维度的模型,比如商品、用户、会员等等。建立完整的宽度表;其次,要梳理数据域、业务流程、各种原子指标和衍生指标,明确各指标的口径,选择合适的模型构建方法(如雪花模型、星型模型)进行关联构建,建设好题库(也叫业务块),向上提供服务。开放接口:将数据资产中的一些字段组织为接口,定义请求和相应的参数并向数据市场开放,用户可以根据需要申请订阅。5.数据安全
目的:确保数据的安全性和可追溯性。
做什么:
审计:对关键操作进行数据掩埋,收集日志数据进行审计。安全预警:建立预警模型,配置关键指标的报警级别和阈值。预警后会通过各种渠道通知相关人员。数据脱敏:当涉及安全数据或一些商业敏感数据时,需要通过脱敏规则对一些敏感信息进行变形,实现隐私保护。水印:用可见/不可见水印对图像、视频等文档进行加密,并根据业务需求进行签名,以明确权责。本文由@丸子不爱吃丸子原创发布。每个人都是产品经理。未经许可,禁止转载。
图片来自Unsplash,基于CC0协议。