机器学习(十一):FP增长(FP-growth)
时间:2019-08-22
本文章向大家介绍机器学习(十一):FP增长(FP-growth),主要包括机器学习(十一):FP增长(FP-growth)使用实例、应用技巧、基本知识点总结和需要注意事项,具有一定的参考价值,需要的朋友可以参考一下。
四、代码实现(python)
以下代码来自Peter Harrington《Machine Learing in Action》
代码如下(保存为fpGrowth.py):
# -- coding: utf-8 -- class treeNode: # FP树中节点的类定义,用于构建FP树 def __init__(self, nameValue, numOccur, parentNode): self.name = nameValue # 节点名字 self.count = numOccur # 计数值 self.nodeLink = None # 链接相似的元素项 self.parent = parentNode # 指向当前节点的父节点 self.children = {} # 存放节点的子节点 def inc(self, numOccur): # 对count变量增加给定值 self.count += numOccur def disp(self, ind=1): # 用于将树以文本形式显示 print ' '*ind, self.name, ' ', self.count for child in self.children.values(): child.disp(ind+1) def loadSimpDat(): # 数据集 simpDat = [['r', 'z', 'h', 'j', 'p'], ['z', 'y', 'x', 'w', 'v', 'u', 't', 's'], ['z'], ['r', 'x', 'n', 'o', 's'], ['y', 'r', 'x', 'z', 'q', 't', 'p'], ['y', 'z', 'x', 'e', 'q', 's', 't', 'm']] return simpDat def createInitSet(dataSet): # 对数据集进行格式化处理 retDict = {} for trans in dataSet: retDict[frozenset(trans)] = 1 return retDict def createTree(dataSet, minSup=1): # 该函数用于创建FP树 # 该函数接收两个参数,分别是格式化后的数据集和需满足的最小支持度计数 headerTable = {} # 存储头指针 for trans in dataSet: # 循环每一个事务 for item in trans: # 循环事务中的每一个元素,存储各元素的支持度计数 headerTable[item] = headerTable.get(item, 0) + dataSet[trans] # 移除不满足最小支持度计数的元素项 for k in headerTable.keys(): if headerTable[k] < minSup: del(headerTable[k]) freqItemSet = set(headerTable.keys()) # 存储删除后的元素项,即频繁项 if len(freqItemSet) == 0: return None, None # 如果没有元素项满足要求,则退出 # 对头指针表扩展,以便可以保存计数值及指向每种类型第一个元素项的指针 for k in headerTable: headerTable[k] = [headerTable[k], None] retTree = treeNode('Null Set', 1, None) # 创建只包含空集合的根节点 for tranSet, count in dataSet.items(): # 第二次遍历数据集,tranSet为各事务,count为初始化的计数值 localD = {} for item in tranSet: if item in freqItemSet: # 如果该元素项为频繁项,则可继续操作 localD[item] = headerTable[item][0] # 将第一次遍历得到的支持度计数赋值給相应元素 if len(localD) > 0: orderedItems = [v[0] for v in sorted(localD.items(), key=lambda p: p[1], reverse=True)] # 获取元素项,并按支持度计数高到低排序 updateTree(orderedItems, retTree, headerTable, count) return retTree, headerTable def updateTree(items, inTree, headerTable, count): # 该函数接收4个参数,分别为已排序好的元素项、FP树、头指针表、对应计数值 if items[0] in inTree.children: # 如果该元素是作为子节点存在,则更新该元素的计数 inTree.children[items[0]].inc(count) else: # 否则,创建一个新的treeNode并将其作为一个字节点添加到树中 inTree.children[items[0]] = treeNode(items[0], count, inTree) if headerTable[items[0]][1] == None: # 若头指针为空,更新头指针为树的子节点 headerTable[items[0]][1] = inTree.children[items[0]] else: # 若头指针有值,更新头指针的nodeLink updateHeader(headerTable[items[0]][1], inTree.children[items[0]]) if len(items) > 1: # 对剩下的元素进行迭代调用自身 updateTree(items[1::], inTree.children[items[0]], headerTable, count) def updateHeader(nodeToTest, targetNode): # 该函数用于更新头指针 # 该函数接收2个参数,分别是待更新的位置和需更新的值 while (nodeToTest.nodeLink != None): nodeToTest = nodeToTest.nodeLink # 循环至链表尾端为None nodeToTest.nodeLink = targetNode def ascendTree(leafNode, prefixPath): # 该函数用于递归上溯整颗树 if leafNode.parent != None: prefixPath.append(leafNode.name) ascendTree(leafNode.parent, prefixPath) def findPrefixPath(basePat, treeNode): # 该函数用于为给定元素项生成一个前缀路径 # 该函数接收2个参数,分别是给定元素项和头指针表纪录的该元素的相似项路径 condPats = {} while treeNode != None: prefixPath = [] ascendTree(treeNode, prefixPath) if len(prefixPath) > 1: condPats[frozenset(prefixPath[1:])] = treeNode.count treeNode = treeNode.nodeLink return condPats def mineTree(inTree, headerTable, minSup, preFix, freqItemList): # 该函数用于将前缀路径转化为条件FP树 # 该函数接收5个参数,分别是FP树、头指针表、需满足最小支持度计数、前缀路径、频繁项集 bigL = [v[0] for v in sorted(headerTable.items(), key=lambda p: p[1])] # 将频繁1-项集的元素按支持度计数低到高排序 for basePat in bigL: newFreqSet = preFix.copy() newFreqSet.add(basePat) freqItemList.append(newFreqSet) condPattBases = findPrefixPath(basePat, headerTable[basePat][1]) # 获取basePat的前缀路径 myCondTree, myHead = createTree(condPattBases, minSup) # 根据给定的前缀路径构建FP树 if myHead != None: # 递归直到该元素的前缀路径为空 print 'conditonal tree for:', newFreqSet myCondTree.disp(1) mineTree(myCondTree, myHead, minSup, newFreqSet, freqItemList)
原文地址:https://www.cnblogs.com/pengfeiz/p/11393051.html
- silverlight:DeepZoom版的图片局部放大效果
- Linq之ToDictionary<TSource, TKey, TElement>的写法
- vs.net的调试小技巧之#define debug(适合新手)
- byte[]数组下标的最大值
- silverlight图片局部放大效果
- 局域网与互联网环境下MTU的快速确定方法
- 【4】通过简化的正则表达式处理字符串
- silverlight中的socket编程注意事项
- socket中的byte消息格式设计
- 在silverlight中利用socket发送图片或文件
- 多线程中的ManualResetEvent
- 进程与线程
- ASP.NET TreeView相关问题
- 温故而知新:WinForm/Silverlight多线程编程中如何更新UI控件的值
- JavaScript 教程
- JavaScript 编辑工具
- JavaScript 与HTML
- JavaScript 与Java
- JavaScript 数据结构
- JavaScript 基本数据类型
- JavaScript 特殊数据类型
- JavaScript 运算符
- JavaScript typeof 运算符
- JavaScript 表达式
- JavaScript 类型转换
- JavaScript 基本语法
- JavaScript 注释
- Javascript 基本处理流程
- Javascript 选择结构
- Javascript if 语句
- Javascript if 语句的嵌套
- Javascript switch 语句
- Javascript 循环结构
- Javascript 循环结构实例
- Javascript 跳转语句
- Javascript 控制语句总结
- Javascript 函数介绍
- Javascript 函数的定义
- Javascript 函数调用
- Javascript 几种特殊的函数
- JavaScript 内置函数简介
- Javascript eval() 函数
- Javascript isFinite() 函数
- Javascript isNaN() 函数
- parseInt() 与 parseFloat()
- escape() 与 unescape()
- Javascript 字符串介绍
- Javascript length属性
- javascript 字符串函数
- Javascript 日期对象简介
- Javascript 日期对象用途
- Date 对象属性和方法
- Javascript 数组是什么
- Javascript 创建数组
- Javascript 数组赋值与取值
- Javascript 数组属性和方法