数据挖掘算法实现的心得体会

时间：2019-09-06 22:01

数据挖掘学习心得体会

数据挖掘学习心得体会【篇一：数据挖掘心得体会】心得体会这次数据挖掘实验结束了，期间我们小组明确分工并积极去完成，虽然有点辛苦，但我感觉充实而有收获感

根据老师给的一些资料，我们决定采用sqlserver2000中的northwind数据库里的数据作为我们的实验数据。

根据表orderdetails中的数据，我们分别根据productid和orderid字段，并结合我们规定的最小支持度阀值对数据进行筛选。

依次筛选出1项频繁集、2项频繁集和3项频繁集，其中还会使用游标的方式来遍历2项集与3项集的候选集，分别选出2项频繁集和3项频繁集。

由于数据较多，因此过程比较复杂，要编写很多的查询语句，建立许多数据表，包括临时表。

开始不知道则操作，但经过我们各自多次重复的建表与查询，逐渐的理解和有了自己的思路。

尤其是在运用游标的方法进行遍历这块，因为我们比较陌生而不理解，操作时一时无法实现结果，但经过我们在网上查询了解相关知识，最终得以解决。

经过该次实验，使我对数据库的操作更加熟练，而且还使我对课本上的“挖掘频繁模式”这块知识有了很好的掌握，今后我会多做实验，使我在实际操作过程中学得更好

【篇二：数据挖掘与分析心得体会】正如柏拉图所说：需要是发明之母。

随着信息时代的步伐不断迈进，大量数据日积月累。

我们迫切需要一种工具来满足从数据中发现知识的需求

而数据挖掘便应运而生了。

正如书中所说：数据挖掘已经并且将继续在我们从数据时代大步跨入信息时代的历程中做

听面向领域的数据驱动的数据挖掘心得体会王国胤主讲

1，关联规则的采样挖掘关则的通常与事务处理与关系数据库相关，务需要反复遍历数据因此在大数据集上将花费大量的时间。

有很多的算法可以改进关联规则算法的效率与精度，但在精度保证的前提下，采样是最直接与最简单的改进效率的方法。

2.分类的采样分类一般分为三种类型:决策树、神经网络及统计方法(如无偏差分析)，在这些算法中均有使用采样的案例。

分类的采样一般有四种，一种是随机采样，另外三种是非随机采样，分别是“压缩重复”、“窗口”及“分层”。

3.聚类的采样在聚类中进行采样有若干的用途。

有些聚类算法使用采样进行初始化工作，例如，利用采样得到的样本得到初始化的参数，然后再对大数据集进行聚类。

当处理大数据集时，需要降低算法使用的空间。

为了得到较好的聚类，根据数据的分布情况需要采用不同的采样方法。

随机采样仍然是一种常规的方法，在随机采样忽略了小的聚类的情况下，一般采用非随机采样的方法。

非随机采样的方法中最常用的是分层采样。

例如，在密度差别很大的数据集中，根据密度的不同，采样的样本数量可以不同，在密度较高的区域采样的次数少一些，而在密度稀疏的区域，采样的次数多一些。

4.扩充(Scaling-Up)的数据挖掘算法的采样扩充是指利用已有的数据挖掘算法能够高敛地处理大数据集。

当数据挖掘的算法初期是处理小数据集的情况下，处理大数据集就会受到限制。

在这种情况下，一般会采用分而抬之的方法:将大数据集分解成较小的互不重叠的数据集，利用己有算法进行处理，然后，将小数据集得出的结果合并成最终的结果。

需要注意的是，这种方法等价于将困难转嫁到合并步骤，即需要复杂的处理才能得到正确的结果。

因此，整体的复杂性没有降低。

平九刘谛伊颂筌序赵皎伯圆访谆妃袭准巨一京堂

对数据挖掘有兴趣：为了实现“ 海量数据处理和挖掘的基本算法”这一点我该怎么学习，或者培训点什么课程

1楼疯了，那里都能看到。

是这样的，数据挖掘是建立在庞大的数据集上的。

基本算法没法说，太乱。

建议你先找点书去看看。

比如《数据挖掘导论》，《数据挖掘概念与技术》看看再说。

数据挖掘实现难度

一般来说在baidu中不应该业的问题,因为很难在短内解释清楚,非专家也不了解相关知识.关于数据挖掘技术的实现,我想并不困难,比如c4.5算法,现在普遍应用的免费算法C4.5第8版就是那个叫quinlan的人编写的,很容易读懂,还有see5,Ctree,等免费工具,如果会编程应该没问题.数据仓库和数据挖掘不是完全独立的.其中有联系,数据仓库可以理解为有组织的数据库吧??貌似~数据挖掘更多涉及各种算法和理论,并且一定要有实验,这点和数据仓库类似,反正哪个都不会简单,看你更了解哪部分了~很多人就是想在信息系统中实现自己的数据挖掘算法,这要求不仅在理论上通过算法,还需要有编程基础,看你的基础如何了.

用java 实现apriori算法，就是数据挖掘的一个题目，，求高手，，哭

《数据挖掘：实用机器学习技术及Java实现》，自己买一本吧，看过英文版的，不知道现在有没有中文翻译版的。

如何做好数据挖掘模型的9条经验总结

第一，目标律。

数据挖掘是一个业务过程，必须得有业务目标。

无目的，无过程。

第二，知识律。

业务知识贯穿在挖掘这个业务过程的各环节。

第三，准备律。

数据获取、数据准备等数据处理耗时占整个挖掘过程的一半。

第四，NFL律。

NFL，没有免费的午餐。

没有一个固定的算法适用所有的业务问题，特定应用适合的模型只能通过经验发现。

第五，大卫律。

要相信，数中必有业务规律。

大卫?沃尔金斯最早提出的，故此名。

第六，洞察律。

数据挖掘本质上是增强对业务领域的认知。

第七，预测律。

数据挖掘基于过去得出模式，并泛化到类似新事物上，这就是预测，但这是统计概念的。

第八，价值律。

挖掘模型的最终价值并非模型精度或稳定性，而是驱动业务行动或通过新洞察导致策略改善。

第九，变化律。

人不会两次踏入同一条河流。

业务在变，目标在变，认识也在变，甚至规律本身也在变，挖掘模型也得与时俱进。

数据挖掘基本步骤

数据挖掘的基本流程数据挖掘有很多不同的实施方法，如果只是把数据拉到Excel表格中计算一下，那只是数据分析，不是数据挖掘。

本节主要讲解数据挖掘的基本规范流程。

CRISP-DM和SEMMA是两种常用的数据挖掘流程。

2.5.1　数据挖掘的一般步骤从数据本身来考虑，数据挖掘通常需要有信息收集、数据集成、数据规约、数据清理、数据变换、数据挖掘实施过程、模式评估和知识表示8个步骤。

步骤（1）信息收集：根据确定的数据分析对象，抽象出在数据分析中所需要的特征信息，然后选择合适的信息收集方法，将收集到的信息存入数据库。

对于海量数据，选择一个合适的数据存储和管理的数据仓库是至关重要的。

步骤（2）数据集成：把不同来源、格式、特点性质的数据在逻辑上或物理上有机地集中，从而为企业提供全面的数据共享。

步骤（3）数据规约：如果执行多数的数据挖掘算法，即使是在少量数据上也需要很长的时间，而做商业运营数据挖掘时数据量往往非常大。

数据规约技术可以用来得到数据集的规约表示，它小得多，但仍然接近于保持原数据的完整性，并且规约后执行数据挖掘结果与规约前执行结果相同或几乎相同。

步骤（4）数据清理：在数据库中的数据有一些是不完整的（有些感兴趣的属性缺少属性值）、含噪声的（包含错误的属性值），并且是不一致的（同样的信息不同的表示方式），因此需要进行数据清理，将完整、正确、一致的数据信息存入数据仓库中。

不然，挖掘的结果会差强人意。

步骤（5）数据变换：通过平