zoukankan      html  css  js  c++  java
  • WEKA——数据挖掘与机器学习工具

    子将父做马,父愿子成龙

    参考书籍

    《数据挖掘与机器学习WEKA应用技术与实践》袁梅宇 编著
    《数据挖掘:使用机器学习工具与技术》

    Weka功能

    Weka 主界面称为Weka GUI 选择器。

    1. Explorer(探索者):通过选择菜单和填写表单可以调用Weka的所有功能。不过存在一些问题就是,要求它所需的数据需要一次性全部读入内存。
    2. KnowledgeFlow(知识流):可以使用增量方式的算法处理大型数据集,用户可以绘制处理数据流的方式和顺序。
    3. Experimenter(实验者):用于帮助用户解答实际应用分类和回归技术中遇到的一个基本问题——对于一个已知问题,哪种方法及参数值能够取得最佳效果。
    4. Simple CLI(简单命令行界面):为不提供自己命令行界面的操作系统提供的,该简单的命令行界面用于和用户进行交互,可以直接执行Weka命令。
      • CLI(command-line interface)

    机器学习分类

    机器学习分为两种主要类型:有监督学习和无监督学习。 有监督的学习是指在给定的一系列的I&O实例构成的数据集的条件下,学习输入x到输出y的映射关系。这里的数据集合称为训练集,实例个数称为样本个数。 无监督学习有时候也称为知识发现、描述学习。这类问题并没有明确的定义,因为我们不知道要寻找什么样的模式,也没有明显的误差度量可供使用。

    数据和数据集

    数据视为是待处理的数据对象的集合。数据对象有多个别名如记录、行、向量、点、样本、案例等;数据对象的描述可以用对象的基本特征属性来描述,属性也有多个别名如变量、字段、列、维、特征等。 属性可以分为四种类型:标称(nominal)、序数(ordinal)、区间(interval)和比率(ratio)。其中,标称属性的值不仅仅是不同的名称,标称值仅提供区分对象足够的信息,如性别(男、女)、颜色(红、绿、蓝)、天气(阴、晴、雨、多云)等;序数属性的值可以提供确定对象顺序的足够信息,如成绩等级(优良中差)、职称(初中高)、学生(本硕博)等;区间属性的值之间的差是有意义的,即存在度量单位,如温度、日历日期等;比率属性的值之间的差和比值都是意义的,如绝对温度、年龄、长度、成绩分数等。

    标称属性和序数属性统称为分类或者定性属性。他们的取值为集合,即使使用数值来表示,要不具备数的大部分的性质,因此,应该像对待符号一样对待;区间属性和比率属性称为定量活数值属性,定量属性采用数值来表示,具备数的大部分性质,可以使用整数值或连续值来表示。

    • ARFF(Attribute-Relation File Format)属性-关系文件格式。
      数据集是实例的集合,每个实例包含一定的属性。
      @relation weather
      定义内部数据集的名称
      @attribute outlook {sunny, overcast, rainy}
      定义标称型属性 给出预定义取值空间
      @attribute temperature real
      定义数值型属性,real类型
      @data
      各行构成数据集合,每一个实例样本用“,”分隔的值组成,顺序和 @attribute中定义的属性顺序一致。

    数据预处理

    避免数据质量问题
    • 数据质量问题的检测和纠正:在数据挖掘之前检测并且纠正数据的一些质量问题,这个过程叫做数据预处理。
    • 使用能够容忍低质量数据的算法:提高算法的健壮性。

       数据预处理的一些技术:聚集、抽样、维度归纳、属性选择、属性创建、离散化和二元化、变量变换。
      

    Weka版本使用

    首先下载最新版的适合自己系统的[版本](http://www.cs.waikato.ac.nz/ml/weka/downloading.html)
    1. 使用weka包管理器:从包管理器GUI进入管理页面,然后进行install。如果出现无法连接和超时链接的问题,这是因为包所在的SF网站有容量限制,该网站因为用户过多不堪重负。解决办法:找到C:Users***wekafilesprops目录之后,在目录中创建一个PackageRepository的文本文件,在第一行加入如下的内容weka.core.wekaPackageRepositoryURL=http://www.cs.waikato.ac.nz/ml/weka/packageMetaData

    2. 使用UTF-8数据集或者文件在RunWEKA.ini文件中修改fileEncoding=Cp1252改成fileEncoding=UTF-8。

    3. Weka访问数据库
    踏实 踏踏实实~
  • 相关阅读:
    第七届河南省赛F.Turing equation(模拟)
    第八届acm省赛 A挑战密室(模拟)
    展开字符串(dfs)
    排名(水题)
    Identity Card(水题)
    Dropping Balls (二叉树+思维)
    SQL学习——IN运算符
    SQL学习——BETWEEN运算符
    SQL学习——LIKE运算符
    【数字图像处理】灰度转换算法
  • 原文地址:https://www.cnblogs.com/mrzhang123/p/5365816.html
Copyright © 2011-2022 走看看