从大数据技术的四个环节来把控数据质量,提高数据利用度


大数据技术可以分为四个环节,数据采集、数据建模、数据分析、指标。联通大数据外呼
1、想要真正做好数据分析,首先要把数据基础建好,核心就是“全”和“细”。 比如不要只收集局部环境的数据比如几家门店的客流量来分析它对店面营业的影响。
比如搜集数据时不能只通过 APP 或客户端收集数据,服务器的数据、数据库数据都要同时收集打通,收集全量数据,而非抽样数据,同时还要记录相关维度,否则分析业务时可能会发现历史数据不够,所以不要在意数据量过大,磁盘存储的成本相比数据积累的价值,非常廉价。
同时,为了确保海量数据的真实性和准确性,数据的取得来源、取得方式、取得的环境等信息就显得异常的重要了。
海量数据来源,一般情况下主要有两个路径:①一种是在企业自有的服务器或者租赁的服务器里存储,企业自己的业务会自动生成业务数据存储在服务器,企业都自己的数据负责,这种主要是游戏、软件等互联网研发生产企业。②另外一种就是企业的数据与其他公司一样统一存储在大的一个统一的平台上,比如电商企业,可能有无数家企业的数据都会存储在阿里巴巴或者京东的服务器上,企业需要向这些机构取得跟自己企业相关的数据。 
在实践中,对于两种数据来源的方式我们简单分析下:①对于第一种数据来源方式,由于企业自动生成并保管数据是很有可能会篡改数据甚至是虚构数据的,在审计中,那就需要对企业数据生成、数据保管、数据转移、数据修改等企业的IT环境和内部控制措施进行核查,目的就是要保证数据从生成到最终审计的整个过程中是否存在可能导致数据被修改的因素或者隐患。②对于第二种数据来源方式,我们可以假定统一大平台的数据生成和管理措施是完善的,同时假定企业从大平台取得数据的过程和方式是值得信赖的,那么我们可以初步认定发行人的数据来源值得信任。当然,数据是否存在合理性,是否准确,是否有虚假的成分,那么就需要对数据进行进一步的分析。
同时我们也需要通过一些核查程序对数据情况进行一个基本判断。(1)内控核查。如果一个企业的IT内控缺失,那么会增加数据不完整或数据被篡改的风险;(2)应用控制核查。主要关注算法逻辑和接口,例如取数逻辑、统计算法、接口调用等都会影响到数据完整性,应用控制核查需根据企业实际的系统情况和数据情况制定具体审计策略。
数据源的清晰和质量的保证对数据建模的影响巨大。
2、在进行建模之前,首先要考虑的是使用哪些变量来建立模型,需要从业务逻辑和数据逻辑两个方面来考虑:
业务逻辑:变量基于收集到的数据,而数据在收集时,会产生与业务层面相关的逻辑。
数据逻辑:通常从数据的完整性、集中度、是否与其他变量强相关(甚至有因果关系)等角度来考虑,比如某个变量在业务上很有价值,但缺失率达到90%,或者一个非布尔值变量却集中于两个值,那么这个时候我们就要考虑,加入这个变量是否对后续分析有价值。 
在选择变量时,业务逻辑应该优先于数据逻辑,因为业务逻辑是从实际情况中自然产生,而建模的结果也要反馈到实际中去,因此选择变量时,业务逻辑重要程度相对更高。
3、数据分析有两种主要的方式,一种是基于统计学的分析方式,另一种是基于机器学习的分析方式,不论哪种方式都需要研发人员具备扎实的数学基础。     
基于机器学习的数据分析方式需要进行大量的算法训练,算法训练需要大量的数据支撑,所以在云计算时代,机器学习随着算力的增强以及数据量的提升,在实用性方面得到了较大的增强,尤其是深度学习领域的发展。
数据分析一定要结合实际的应用场景,场景数据分析也是目前进行大数据分析的主要方式,不同的应用场景往往需要采用不同的数据分析方式,同时在数据维度的定义上也会有所变化。对于分析人员来说,要想提升大数据的落地应用价值,一定要具备一定的行业知识。

  1. 而数据指标指的是通过对于数据进行分析,可以给业务带来价值和突破的指标。

数据指标的类型来源于业务需求,业务需求常用下面的一句话来概述:谁,做了什么事,结果如何。通过上面的一句话,可以将数据指标分为三大类: 
用户数据:用户相关的数据,如DAU/MAU、新增用户、留存率、渠道来源等。
行为数据:用户使用产品产生的一些动作相关的数据,如PV、UV、访问深度、转化率、访问时长、弹出率等。
业务数据:实际产生的代表业务价值的数据,如 GMV、ARPU/ARPPU、付费人数、付费转化率、付费频次、付费转化时间等。
通过数据可视化的展现以及用户的画像分析,为企业决策提供高价值的依据。
以上四个环节是环环相扣的环节,大数据技术要想有效地运用,必须将这四个环节有效利用起来,使它为科技的发展和人类文明的进步提供有力条件。

 

 

 

 

 

24小时服务热线:18351968884(微信号)

商务合作:kf@10010.js.cn

Copyright©运营商大数据外呼服务中心 版权所有