==感悟:这一章的理论很浅,浅到似乎只需要一个数学公式就能够表达。但是这一章却花费了我整整两天时间。有时候我在想,为什么总是有人很多人想得多做得少,理论很深却只会纸上谈兵。很长的一段时间我就是这种人,自以为智力还算可以,很多数学问题自认为很简单,看了很多书,学了很多知识,但真正向别人讲解时,却怎么也讲不清,其实最深处的原因,还是自身根本就没有熟练地理解其中的含义,有些东西并不是想当然的。其实会和熟差距是非常远的。这让我想起了高中时期,任何题目一眼飘过就能立马动笔,几乎遇不到不会做的试题。而这种情况的出现却是依靠高一高二不断地练习达到的。就像现在这样,其实道理很简单,但是我们还是站在别人的肩膀上行走,你并不是熟路人,瞬时的记忆不可能完成,如果没人提点,庞大的知识体系你根本无法构建,即便一个很小的问题你都不知从何开始。而,这本书中,很多地方都体现了很好地数据处理逻辑,如果给我们自己来组织,很可能不知道从哪着手,或者无法合理地安排函数结构,也可能无法达到强大的可修改性。其中的很多逻辑,在理论上很简单,但是通过代码来表达,不同的形式,也可能千差万别。==
一、关联分析
- 什么是关联分析:关联分析就是你找出两个事物之间的联系。比如找出吸烟和肺癌之间的联系,或者典型的啤酒和尿布的故事。
- 两个指标:
- 支持度:数据集中包含该项数据的比例
- 可信度、置信度:通过P推断出H的可靠性概率:P->H = (P U H)/(P),可信度越高,相关度越大
- Apriori算法:
- 原理:算法的主要作用是为了减少计算量。正原理,如果某个项是频繁的,则它所有的子项也是频繁的;同理,如果某个子项是非频繁的,那么它的所有超集也是非频繁的。这样,如果我们这些高计算频繁项,然后扩展对应的超集,这样就排除了非频繁的。具体的代码表达可能很复杂,需要判断各种情况。而且其中也存在一些可以简化计算的其他方式。
- 代码1:函数逻辑 Apriori.py:
1 |
|
- 代码2:测试函数 test.py:
1 | # 另外我发现一个问题:党创建一个python项目时,会自动创建一个__init__.py文件, |
以下链接可能解释还行,没看,可以参考一下;另外请参考书籍
相关链接:http://blog.csdn.net/u010859707/article/details/78180301