当前位置: 首页 > news >正文

数据挖掘二:数据整合

教材:数据挖掘基于R语言的实战。

1.数据整合

根据关键字将数据集进行链接,并生成合适的变量放入整合的数据集。

2.处理分类自变量

某些数据挖掘方法能够直接处理分类自变量(定类和定序),有些只能处理连续自变量,就需要把分类自变量处理成连续自变量。

对于定序自变量,最通常的转换方式是按各类别的顺序将该变量转换为定距自变量。即如果一组类别是:满意,一般满意,不满意,可以直接转换为:1,0,-1。

对于定类自变量,最常用的转换是将该变量转换为一个或多个取值只能为0或1的二值变量,这些转换后的变量称为哑变量。即男女性别可以转化为1代表女性,0代表男性。

对于有多种取值的定类自变量,可以生成一系列哑变量。一般而言,对于有K种取值的定类自变量,我们不能针对每一种取值都生成一个哑变量,会冗余,通常以某一个取值为生成K-1个。

3.处理时间信息

时间自变量无法直接进入建模数据集,转换方法有以下几种:

  1. 转换为指示时间是否具有某种特征的哑变量,如是否周末;
  2. 转换为季节性信息,如第几季度;
  3. 转换为距离某个事件发生的基准时间的时间长度,如距离下一次见到薛的天数等。

4.清除变量

应该被清除的变量类型:

  • 对所有观测值取值都相同的冗余变量
  • 某个变量的取值大部分或全部缺失
  • 变量无法用来预测数据集

5.处理异常值

聚类算法可以用来发现异常值,发现异常值后要查看他们为什么异常,可以进行更正,考虑下面的两种方法:

  • 删除含有异常值的观测,以免对建模产生较大影响,同时明确模型的应用范围
  • 保留含有异常值的观测,但使用不太容易受异常值影响的稳健模型

6.处理极值

对极值进行转换:
在这里插入图片描述

7.处理缺失数据

缺失值可以分成两大类:

  1. 这个值实际存在但是没有被观测到
  2. 这个值实际就不存在

在第一类情况下插补缺失值是有实际意义的,第二类是没有意义的,需要根据实际情况分类讨论。

MICE缺失值插补方法:
在这里插入图片描述

常用方法

  • 忽略含有缺失数据的记录
  • 用一个常量或标识符号(如:未知)来取代所有缺失数据值
  • 以全体数据相同属性的均值取代某个记录确实的属性值
  • 以最可能发生的值取代某个记录确实的属性值

另一种插补方法是使用能够直接处理含缺失值的自变量的数据挖掘方法。

8.过抽样和欠抽样

过抽样在构建建模数据集时针对样本量少的类别添加数据。
欠抽样在构建建模数据集时针对样本量多的类别删除数据。

9.降维

自变量过多会给数据挖掘方法带来麻烦,所以选择合适的自变量个数。变量选择是降维的一种简单方法。

9.1变量选择

因变量是二值变量

  1. 对于连续自变量:使用两样本t检验考察因变量取一种值(0)时自变量的均值与因变量取另一种值(1)时自变量的均值是否相等,选择检查结果显著(不相等)的变量,即他们显著不相等,说明对预测结果有意义;
  2. 对于分类自变量:使用卡方检验考查自变量的取值是否独立于因变量的取值,选择检验效果显著的(不独立)的自变量,独立代表自变量的取值不影响因变量,但因变量是二值变量,我们需要的是有影响的即不独立的自变量。

因变量为分类变量

将取值两两配对,针对每对取值使用t检验考察因变量的均值是否相等,只要任何一对取值结果显著,就可以选择。

因变量是连续变量

将因变量离散化之后,使用离散变量的处理方法或者下面的方法:

  1. 计算各连续自变量的与因变量的相关系数,剔除相关系数小或者不显著的变量;
  2. 对每个分类自变量,将其取值两两配对,针对每对取值使用t检验考察因变量的均值是否相等,只要任何一对取值结果显著,就可以选择。

总之初期使用简单的方法选择效果显著的变量留下来做后续分析。

9.2主成分分析

针对一组连续的输入变量,主成分分析的目的是构造少数线性组合,以尽可能解释输入变量的数据的变异性。这些线性组合被称为主成分,他们形成的降维数据可以替代输入变量的数据,用于进一步的分析。


http://www.taodudu.cc/news/show-4974443.html

相关文章:

  • 数据整合基础知识介绍
  • 从零开始设计键值数据库(KEY-VALUE STORE)
  • MySQL键值
  • 常用键值表
  • JAVA怎么给手机发短信对接验证码短信接口DEMO示例
  • 手机短信验证码解决方案
  • python实现发送和获取手机短信验证码
  • 【Python web 开发】获取手机短信验证码接口(1)
  • 手机短信验证码接口在各领域的应用
  • dwg文件导入到supermap显示导入失败问题
  • 全新共享协作体验—CAD 2022新功能介绍
  • iOS debug神器
  • clutch ios脱壳工具安装和使用教程
  • iOS-国际化脚本工具
  • iOS逆向工具推荐
  • iOS应用签名管理工具
  • iOS 下载功能(断点续传)
  • 解析超时
  • java 视频解析_ffmpeg解析视频的每一帧(java )
  • 旋风解析磁力php,梦见旋风磁力好不好?
  • remixpacks.club无法访问解决方案(基于Python的base64磁力链接地址解析)
  • UI设计流行框架、学习路线图教程,最新意派基础讲解
  • Epub360教你如何制作报纸翻页式创意招聘H5?
  • 360 序列帧html生成工具,1.gif导出为序列帧
  • UI设计最新意派基础视频教程全套资源
  • 意派epub360 html 代码,意派Epub360丨不用代码,不用定制,你也可以自己制作DIY类H5啦!...
  • 招聘H5页面模板看Epub360,助你快速生成创意H5
  • 放弃哪吒造车增资,360的“智能汽车网络安全”牌不好打
  • Epub360教你招聘H5页面设计与制作
  • 如何使用Epub360制作炫酷的邀请函类型H5页面