数据挖掘算法

算法目录

18大DM算法

包名	目录名	算法名
AssociationAnalysis	DataMining_Apriori	Apriori-关联规则挖掘算法
AssociationAnalysis	DataMining_FPTree	FPTree-频繁模式树算法
BaggingAndBoosting	DataMining_AdaBoost	AdaBoost-装袋提升算法
Classification	DataMining_CART	CART-分类回归树算法
Classification	DataMining_ID3	ID3-决策树分类算法
Classification	DataMining_KNN	KNN-k最近邻算法工具类
Classification	DataMining_NaiveBayes	NaiveBayes-朴素贝叶斯算法
Clustering	DataMining_BIRCH	BIRCH-层次聚类算法
Clustering	DataMining_KMeans	KMeans-K均值算法
GraphMining	DataMining_GSpan	GSpan-频繁子图挖掘算法
IntegratedMining	DataMining_CBA	CBA-基于关联规则的分类算法
LinkMining	DataMining_HITS	HITS-链接分析算法
LinkMining	DataMining_PageRank	PageRank-网页重要性/排名算法
RoughSets	DataMining_RoughSets	RoughSets-粗糙集属性约简算法
SequentialPatterns	DataMining_GSP	GSP-序列模式分析算法
SequentialPatterns	DataMining_PrefixSpan	PrefixSpan-序列模式分析算法
StatisticalLearning	DataMining_EM	EM-期望最大化算法
StatisticalLearning	DataMining_SVM	SVM-支持向量机算法

其他经典DM算法

包名	目录名	算法名
Others	DataMining_ACO	ACO-蚁群算法
Others	DataMining_BayesNetwork	BayesNetwork-贝叶斯网络算法
Others	DataMining_CABDDCC	CABDDCC-基于连通图的分裂聚类算法
Others	DataMining_Chameleon	Chameleon-两阶段合并聚类算法
Others	DataMining_DBSCAN	DBSCAN-基于密度的聚类算法
Others	DataMining_GA	GA-遗传算法
Others	DataMining_GA_Maze	GA_Maze-遗传算法在走迷宫游戏中的应用算法
Others	DataMining_KDTree	KDTree-k维空间关键数据检索算法工具类
Others	DataMining_MSApriori	MSApriori-基于多支持度的Apriori算法
Others	DataMining_RandomForest	RandomForest-随机森林算法
Others	DataMining_TAN	TAN-树型朴素贝叶斯算法
Others	DataMining_Viterbi	Viterbi-维特比算法

18大经典DM算法

18大数据挖掘的经典算法以及代码实现，涉及到了决策分类，聚类，链接挖掘，关联挖掘，模式挖掘等等方面,后面都是相应算法的博文链接，希望能够帮助大家学。目前追加了其他的一些经典的DM算法，在others的包中涉及聚类，分类，图算法，搜索算等等，没有具体分类。

C4.5

C4.5算法与ID3算法一样，都是数学分类算法，C4.5算法是ID3算法的一个改进。ID3算法采用信息增益进行决策判断，而C4.5采用的是增益率。详细介绍链接

CART

CART算法的全称是分类回归树算法，他是一个二元分类，采用的是类似于熵的基尼指数作为分类决策，形成决策树后之后还要进行剪枝，我自己在实现整个算法的时候采用的是代价复杂度算法，详细介绍链接

KNN

K最近邻算法。给定一些已经训练好的数据，输入一个新的测试数据点，计算包含于此测试数据点的最近的点的分类情况，哪个分类的类型占多数，则此测试点的分类与此相同，所以在这里,有的时候可以复制不同的分类点不同的权重。近的点的权重大点，远的点自然就小点。详细介绍链接

Naive Bayes

朴素贝叶斯算法。朴素贝叶斯算法是贝叶斯算法里面一种比较简单的分类算法，用到了一个比较重要的贝叶斯定理，用一句简单的话概括就是条件概率的相互转换推导。详细介绍链接

SVM

支持向量机算法。支持向量机算法是一种对线性和非线性数据进行分类的方法，非线性数据进行分类的时候可以通过核函数转为线性的情况再处理。其中的一个关键的步骤是搜索最大边缘超平面。详细介绍链接

EM

期望最大化算法。期望最大化算法，可以拆分为2个算法，1个E-Step期望化步骤,和1个M-Step最大化步骤。他是一种算法框架，在每次计算结果之后，逼近统计模型参数的最大似然或最大后验估计。详细介绍链接

Apriori

Apriori算法是关联规则挖掘算法，通过连接和剪枝运算挖掘出频繁项集，然后根据频繁项集得到关联规则，关联规则的导出需要满足最小置信度的要求。详细介绍链接

FP-Tree

频繁模式树算法。这个算法也有被称为FP-growth算法，这个算法克服了Apriori算法的产生过多侯选集的缺点，通过递归的产生频度模式树，然后对树进行挖掘，后面的过程与Apriori算法一致。详细介绍链接

PageRank

网页重要性/排名算法。PageRank算法最早产生于Google,核心思想是通过网页的入链数作为一个网页好快的判定标准，如果1个网页内部包含了多个指向外部的链接，则PR值将会被均分，PageRank算法也会遭到LinkSpan攻击。详细介绍链接

HITS

HITS算法是另外一个链接算法，部分原理与PageRank算法是比较相似的，HITS算法引入了权威值和中心值的概念，HITS算法是受用户查询条件影响的，他一般用于小规模的数据链接分析，也更容易遭受到攻击。详细介绍链接

K-Means

K-Means算法是聚类算法，k在在这里指的是分类的类型数，所以在开始设定的时候非常关键，算法的原理是首先假定k个分类点，然后根据欧式距离计算分类，然后去同分类的均值作为新的聚簇中心，循环操作直到收敛。详细介绍链接

BIRCH

BIRCH算法利用构建CF聚类特征树作为算法的核心，通过树的形式，BIRCH算法扫描数据库，在内存中建立一棵初始的CF-树，可以看做数据的多层压缩。详细介绍链接

AdaBoost

AdaBoost算法是一种提升算法，通过对数据的多次训练得到多个互补的分类器，然后组合多个分类器，构成一个更加准确的分类器。详细介绍链接

GSP

GSP算法是序列模式挖掘算法。GSP算法也是Apriori类算法，在算法的过程中也会进行连接和剪枝操作，不过在剪枝判断的时候还加上了一些时间上的约束等条件。详细介绍链接

PreFixSpan

Name		Name	Last commit message	Last commit date
Latest commit History 92 Commits
AssociationAnalysis		AssociationAnalysis
BaggingAndBoosting/DataMining_AdaBoost		BaggingAndBoosting/DataMining_AdaBoost
Classification		Classification
Clustering		Clustering
GraphMining/DataMining_GSpan		GraphMining/DataMining_GSpan
IntegratedMining/DataMining_CBA		IntegratedMining/DataMining_CBA
LinkMining		LinkMining
Others		Others
RoughSets/DataMining_RoughSets		RoughSets/DataMining_RoughSets
SequentialPatterns		SequentialPatterns
StatisticalLearning		StatisticalLearning
.gitattributes		.gitattributes
.gitignore		.gitignore
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

数据挖掘算法

算法目录

18大DM算法

其他经典DM算法

18大经典DM算法

C4.5

CART

KNN

Naive Bayes

SVM

EM

Apriori

FP-Tree

PageRank

HITS

K-Means

BIRCH

AdaBoost

GSP

PreFixSpan

GuiGC/DataMiningAlgorithm

Folders and files

Latest commit

History

Repository files navigation

数据挖掘算法

算法目录

18大DM算法

其他经典DM算法

18大经典DM算法

C4.5

CART

KNN

Naive Bayes

SVM

EM

Apriori

FP-Tree

PageRank

HITS

K-Means

BIRCH

AdaBoost

GSP

PreFixSpan