导语
大数据(Big Data)是指无法在一定时间范围用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强决策力、洞察发现力和流程优化能来来适应海量、高增长率和多样化的信息资产。本文将对常见的大数据分析模型进行简单的介绍,以便为运用大数据分析解决问题、助力决策等奠定基础。
大数据正在成为新的生产要素,对经济社会发展产生着越来越大的影响。根据中国大数据产业联盟发布的《2021中国大数据产业发展地图暨中国大数据产业发展白皮书》, 2020年中国的大数据产业规模达6388亿元,同比增长18.6%,预计未来三年保持15%以上的年均增速,到2023年产业规模超过10000亿元[1]。大数据不仅在推进经济社会发展中有着重要地位,我国也高度重视其体系完善,在2021年的 ‘十四五规划’ 中将大数据标准系统的完善指明为发展重点。
大数据(Big Data)是指无法在一定时间范围用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强决策力、洞察发现力和流程优化能力,来适应海量、高增长率和多样化的信息资产。其具有5V特点,分别是Volume(大量)——数据的大小决定数据的价值,Velocity(高速)——获得数据的速度,Variety(多样)——数据类型的多样性,Value(价值)——合理运用大数据输入参数的数目不足matlab,以低成本创造高价值,Veracity(真实性)——数据的质量[2]。随着大数据以及数据采集、存储、分析等技术的快速发展,几乎所有公司都在尽可能充分利用数据来获取竞争优势。除此之外,大数据还改变了传统的生产方式和经济运行机制,催生新业务促进新兴领域的快速发展。中国大数据网发布的《中国大数据产业白皮书(2021年)》显示,截止2021年8月31号,全国共有大数据企业6万余家,其中处于高质量发展阶段的企业数量达12432家,占比超过了20%[3]。
本文将对常见的大数据分析模型进行简单的介绍,以便为运用大数据分析解决问题、助力决策等奠定基础。
首先,本文将对数据类型进行简单的介绍。数据主要分为结构性数据和非结构性数据。结构性数据指的是可以用二维表结构来逻辑表达和实现的数据;而图片、文本等数据结构不规则、不完整、不能用逻辑来表现的数据则是非结构性数据。根据不同的数据类别,采用不同的数据分析方法。对所有数据而言,都需要对数据进行预处理,从而保准数据的完整性和准确性,进一步提高数据分析的结果。
接下来,我们将会对结构化数据、非结构化数据以及以业务为主的数据分析模型和方法进行介绍。这些分析模型与方法可通过SPSS,R,matlab,python等软件进行实现。
结构化数据分析方法
对处理好的标准化传统结构数据来说,数据分析模型通常是指统计分析或大数据挖掘、深度学习、人工智能等多种类的数据模型。而在数据分析中,可能会对数据进行多重处理,如对数据进行降维、检验数据之间的相关性、对数据进行分类等。接下来我们将简单介绍一些关于处理数据时的方法,分别是降维、回归、聚类、分类等。
降维
对大规模的数据进行数据挖掘时,往往会面临多维度数据。数据集维度的无限增加,计算机的处理能力和速度有限,以及数据集的多个维度之间可能存在共同的线性关系等多项原因可能会造成学习模型的可扩展性不足,乃至优化算法结果无效。因而,必须减少层面总数并减少层面间共线性危害。
数据降维也称为数据归约或数据约减。目的就是为了减少数据计算和建模中涉及的维数。主要应用于构建综合指标来区分目标群体;实现数据可视化;对变量进行压缩、重构,去除数据集中的噪音,突出数据的特征。有两种数据降维思想:一种是基于特征选择的降维,另一种是基于维度变换的降维。常用的分析法是线性判别分析(IDA)等。
线性判别分析(IDA)
LDA(Linear Discriminant Analysis),线性判别分析。主要用于数据预处理中的降维、分类任务。LDA的目标是最大化类间区分度的坐标轴成分,将特征空间投影到一个维度更小的k维子空间中,同时保持区分类别的信息。简而言之,LDA投影后的数据类内方差最小,类间方差最大。该算法的步骤如下:
1)计算类内散度矩阵
2)计算类内间散度矩阵
3)计算矩阵
4)计算最大的d个特征值和对应的d个特征向量,得到投影矩阵
5)对样本中的每一个样本特征转换成新样本。
回归
回归分析法指利用数据统计原理,对大量统计数据进行数学处理,并确定因变量与某些自变量的相关关系,建立一个相关性较好的回归方程(函数表达式),并加以外推,用于预测今后的因变量的变化的分析方法。根据因变量和自变量的个数分为:一元回归分析和多元回归分析;根据因变量和自变量的函数表达式分为:线性回归分析和非线性回归分析。回归分析法的步骤如下:
1)根据自变量与因变量的现有数据以及关系,初步设定回归方程;
2)求出合理的回归系数;
3)进行相关性检验,确定相关系数;
4)在符合相关性要求后,即可根据已得的回归方程与具体条件相结合,来确定事物的未来状况,并计算预测值的置信区间。
常用的回归分析法有:Linear Regression 线性回归、决策树回归,多项式回归等。因这些方法比较常见,在此不再详细介绍。
聚类
聚类分析法是大数据挖掘和测算中的基础每日任务,聚类分析法是将很多统计数据集中化具备 “类似” 特点的统计数据点区划为一致类型,并最后转化成好几个类的方式。大量数据集中必须有相似的数据点。基于这一假设,可以区分数据,并且可以找到每个数据集(分类)的特征。它不仅仅能获得数据内部有效结构,还能作为其他算法的预处理步骤,也能完成噪声点/孤立点的挖掘。常见的聚类算法有系统(层次)聚类算法,DBSCAN算法等。
系统(层次)聚类算法
系统聚类法(hierarchical cluster method)又分为凝聚的层次聚类和分裂的层次聚类,使用距离作为合并或者分裂的标准。凝聚的层次聚类是一种自底向上的策略,首先将每个对象作为一个簇,然后合并这些原子簇为越来越大的簇,直到某个终结条件被满足。分裂的层次聚类与凝聚的层次聚类相反,采用自顶向下的策略,它首先将所有对象置于同一个簇中,然后逐渐细分为越来越小的簇,直到每个对象自成一簇,或者达到了某个终止条件。
DBSCAN算法
DBSCAN算法是一种基于密度的聚类算法,聚类前不需要预先指定聚类的个数,生成簇的个数不定(由数据决定)。该算法利用基于密度的聚类的概念,即要求聚类空间中的一定区域内所包含对象(点或其他空间对象)的数目不小于某一给定阈值。该方法能在具有噪声的空间数据库中发现任意形状的簇,可将密度足够大的相邻区域连接,能有效处理异常数据。
分类
分类算法根据对已知类型训练集的测算和剖析,发掘类型标准,为此分折新统计数据的类型的类别优化算法。分类算法是解决分类问题的一种方法,其目标是预测数据的类别标签(class label)。总体来说,数据分类是一个二阶段的过程,第一个阶段是学习阶段,用于训练分类模型,第二个阶段是预测阶段,使用模型预测新数据的类标签。逻辑回归、决策树、支持向量机、随机森林等分类算法,不仅可以进行二分类,也能进行多分类。这里简单介绍决策树模型。
决策树
决策树(Decision Tree)是在已知各种情况发生概率的基础上,通过构建决策树来进行分析的一种方式,是一种直观应用概率分析的一种图解法,它代表的是对象属性与对象值之间的一种映射关系。树中每个节点表示某个对象,而每个分支叉路径则代表某个可能的属性值,而每个叶节点则对应从根节点到该叶节点所经历的路径所表示的对象的值。
常见决策树分类算法:
1) CLS算法:是最原始的决策树分类算法,基本流程是,从一棵空树出发,不断的从决策表选取属性加入数的生长过程中,直到决策树可以满足分类要求为止。CLS算法存在的主要问题是在新增属性选取时有很大的随机性。
2) ID3算法:对CLS算法的最大改进是摒弃了属性选择的随机性,利用信息熵的下降速度作为属性选择的度量。ID3是一种基于信息熵的决策树分类学习算法,以信息增益和信息熵,作为对象分类的衡量标准。ID3算法结构简单、学习能力强、分类速度快适合大规模数据分类。但同时由于信息增益的不稳定性,容易倾向于众数属性导致过度拟合,算法抗干扰能力差。
3) C4.5算法:基于ID3算法的改进,主要包括:使用信息增益率替换了信息增益下降度作为属性选择的标准;在决策树构造的同时进行剪枝操作;避免了树的过度拟合情况;可以对不完整属性和连续型数据进行处理;使用k交叉验证降低了计算复杂度;针对数据构成形式,提升了算法的普适性。
非结构性数据分析方法
非结构性数据则根据不同的数据类别采用不同的分析方法,当数据是图片时,处理的方法可以采用主成分分析法(PCA),也可以采用K均值聚类算法亦或是CNN算法(卷积神经网络)进行图像分类。当数据是文本时,可以根据自身需求采用自然语言处理里的多类分析方法对文本进行处理。自然语言处理旨在从文本数据中提取信息,目的是能让计算机处理自然语言,执行信息抽取、文本分类,情感分析、文本挖掘等方面的操作。接下来会对主成分分析法(PCA)、k均值聚类法、以及自然语言处理中的情感分析进行部分介绍。
主成分分析法(PCA)
主成分分析(Principal Component Analysis, PCA)是最常用的一种降维方法,通常用于高维数据集的探索与可视化,还可以用作数据压缩和预处理等。PCA可以把具有相关性的高维变量合成为线性无关的低维变量,转换后的变量称为主成分。该算法的步骤如下:
1)将原始数据按列组成n行m列矩阵X
2)去平均化(去中心化),即每一位特征减去各自的平均值
3)求出协方差矩阵C
4)求出协方差矩阵的特征值及对应的特征向量
5)用特征值从大到小排序,选择其中最大的k个,然后将其对应的k个特征向量分别作为行向量组成特征向量矩阵P
6)将数据转换到k个特征向量构建的新空间中,即Y=PX,Y为降维到K维后的数据
K-means聚类算法
K-means聚类算法是根本样本之间的距离大小将样本集划分为K个簇,让簇内的点尽量紧密的连载一起,而让簇之间的间距尽可能的大。其算法是:
1) 随机选取k个点作为初始聚类中心
2) 对于剩下的点,根据其余聚类中心的距离,将其归入最近的簇
3) 对每个簇,计算所有点的均值作为新的聚类中心
4) 重复2、3直至聚类中心不再发生改变
自然语言处理——情感分析(Sentiment Analysis)
情感分析指的是利用自然语言处理和文本挖掘技术,对带有情感色彩的主观性文本进行分析、处理和抽取的过程[4]。情感分析又包括情感分类、情感检索、情感抽取问题来分析相关研究工作。情感分类又称为情感倾向性分析,是对指定的文本识别其主观性文本的倾向是正面的或是负面的。文本的主客观分类主要以情感词识别,利用不同的特征表示方法和分类器进行识别分别。主要的分类方法有支持向量机(SVM)、逻辑回归(Logistic regression)等。
在进行情感分析时,需要构建逻辑回归分类模型,主要分为三个步骤,先对特征进行有效提取,并对其进行标注(如正面情感标为1,负面情感标为0),训练逻辑回归分类器,并多次迭代减小损失值,后用使用好的模型进行预测,最终完成情感分析。其中逻辑回归是一种广义的线性回归模型,常用于数据挖掘,经济预测等领域,其原理是用逻辑函数把线性回归的结果从(-∞,∞)映射到(0,1),其步骤:
1) 将特征X输入预测函数(模型)中,计算得到对应的预测标签
2) 通过损失函数计算标签Y与预测标签之间的差异,即损失值(loss),损失值越小,说明模型效果越好,从而实现标签到特征的最佳映射
3) 通过损失值来更新参数
4) 重复上述流程,直到损失值下降到理想程度[5]
图 1 逻辑回归法[5]
以业务为主的数据分析方法
基于事件的多个维度,多种数据,都会形成一些常见的以业务为主的分析方法,而这些分析方法能相对完整的揭示用户行为的内在规律,帮助更好地做出决策。当然数据也需要进行提前的处理,随后可通过FineBI,powerBI等工具进行数据分析。接下来将着重介绍漏斗模型、PEST模型、决策树分析法、需求分析方法 KANO模型等。
漏斗模型
漏斗分析是一套流程式数据分析,它能够科学反映用户行为状态以及从起点到终点各阶段用户转化率情况的重要分析模型,其主要步骤是监控用户在流程上各个层次的行为路径,寻找每个层级的可优化点,提高用户在每个层级之间的转化率。通过人数进行统计,就是次数去重以后基于时间序列的统计。
漏斗分析模型已经广泛应用于网站和APP用户行为分析的流量监控、电商行业、零售的购买转化率、产品营销和销售等日常数据运营与数据分析的工作中。可以帮助企业监控用户在各个层级的转化情况,降低流失率,也能多维度切分与呈现用户情况,捕捉用户行为变化,改变营销策略。
PEST模型
PEST分析是分析企业外部宏观环境的一种方法。宏观环境又称一般环境,是指影响一切行业和企业的各种宏观力量、因素。对宏观环境因素作分析,不同行业和企业根据自身特点和经营需要,分析的具体内容会有差异,但一般都应对政治(Political)、经济(Economic)、技术(Technological)和社会(Social)这四大类影响企业的主要外部环境因素进行分析。
该方法主要作用于公司战略规划、市场规划、产品经营发展、研究报告撰写等,对宏观市场环境进行分析,从政治、经济、社会以及技术四个维度对产品或服务是否适合进入市场进行数据化的分析,最终得到结论,辅助判断产品或服务是否满足大环境。
逻辑树分析法
图 2 逻辑树分析法
“逻辑树” 分析法就是一种结构化的思维工具。它把各种各样的要素组合在一起,用树状结构来展示问题。通过这种方法,可以从 “广度” 和 “深度” 两方面找出问题所在。逻辑树的使用必须遵循以下三个原则。要素化:把相同的问题总结归纳成为要素,框架化:将各个要素组织成框架,遵守不重不漏的原则,关联化:框架内的各要素保持必要的相互关系,简单而不独立。主要作用是帮助数据分析更加清晰,避免重复和无关的步骤,可以把工作细分为更加便于操作的任务,确定各部分的优先顺序,明确地把责任落实到个人。
需求分析方法 KANO模型
KANO模型是对用户需求分类和优先排序的有用工具,以分析用户需求对用户满意的影响为基础,体现了产品性能和用户满意之间的非线性关系。卡诺模型的数据收集是采用问卷法,每个问题设计正方两方面问题,最后把数据填入质量类型评价表,共有必备质量、期望质量、魅力质量、无差异质量、反向质量五个类型组成。
必备质量(M)(Must-be Quality),又叫基本质量,当提供此类需求时,使用者满意度不会明显提升,但不提供此类需求时满意度会大幅降低,是必须被保障的基础需求。
期望质量(M)(One-dimensional Quality),又叫一元质量,当提供此类需求时,使用者满意度会提升,反之则降低。该类应是被优先考虑提升和改进的需求。
魅力质量(A)(Attractive Quality),又叫兴奋质量,在实践中,若不提供此类需求,使用者满意度不会降低输入参数的数目不足matlab,但当提供此类需求时,满意度会极大提升,有时是产品或服务具有竞争力的保证。
无差异质量(I)(Indifferent Quality),即无论提供或不提供此类需求,使用者满意度并不会有明显变化。在条件有限的情况下,可以不优先提供此类需求。
反向质量(R)(Reverse Quality),即使用者没有此需求,若提供反而会导致满意度下降。如:过度服务会引起不少顾客的反感。在设计绩效指标时,前三种必备质量、期望质量和魅力质量,就是基本因素、绩效因素和激励因素。
图 3 KANO模型[6]
概括而言,本文的概述并不深入,通过梳理希望能够给大家展示一些大数据分析模型与方法的基本知识,为入门学习提供一些参考。此外,特别感谢和锴博士提供的帮助。
参考文献
向上滑动阅览
[1]中国大数据产业生态联盟,2021中国大数据产业发展地图暨中国大数据产业发展白皮书[R].
[2]郭鸣华.大数据的定义及特征[J].当代检察官,2017,0(12):32-32
[3]中国大数据网. 中国大数据产业白皮书(2021)[R].
[4]PANG B,LEE L. Opinion mining and sentiment analysis[J].Foundations and Trends in InformationRetrieva,2008,2 (1 -2) :130 - 135.
[5]“自然语言处理(NLP)-1.1 监督学习与情感分析(Supervised ML & Sentiment Analysis)”,2021-3-18,[DB/OL],~default~baidujs_title~default-1.pc_relevant_default&spm=1001.2101.3001.4242.2&utm_relevant_index=4
[6]“基础的竞品分析”,2019-08-13, [DB/OL], #comments
限时特惠:本站每日持续更新海量设计资源,一年会员只需29.9元,全站资源免费下载
站长微信:ziyuanshu688