中文无码乱人伦中文视频在线V

1 Apriori介紹

Apriori算法使用頻繁項集的先驗知識，使用一種稱(chēng)作逐層搜索的迭代方法，k項集用于探索(k+1)項集。首先，通過(guò)掃描事務(wù)（交易）記錄，找出所有的頻繁1項集，該集合記做L1，然后利用L1找頻繁2項集的集合L2，L2找L3，如此下去，直到不能再找到任何頻繁k項集。最后再在所有的頻繁集中找出強規則，即產(chǎn)生用戶(hù)感興趣的關(guān)聯(lián)規則。

其中，Apriori算法具有這樣一條性質(zhì)：任一頻繁項集的所有非空子集也必須是頻繁的。因為假如P(I)< 最小支持度閾值，當有元素A添加到I中時(shí)，結果項集（A∩I）不可能比I出現次數更多。因此A∩I也不是頻繁的。

2 連接步和剪枝步

在上述的關(guān)聯(lián)規則挖掘過(guò)程的兩個(gè)步驟中，第一步往往是總體性能的瓶頸。Apriori算法采用連接步和剪枝步兩種方式來(lái)找出所有的頻繁項集。

1）連接步

為找出Lk（所有的頻繁k項集的集合），通過(guò)將Lk-1（所有的頻繁k-1項集的集合）與自身連接產(chǎn)生候選k項集的集合。候選集合記作Ck。設l1和l2是Lk-1中的成員。記li[j]表示li中的第j項。假設Apriori算法對事務(wù)或項集中的項按字典次序排序，即對于（k-1）項集li，li[1]<li[2]<……….<li[k-1]。將Lk-1與自身連接，如果(l1[1]=l2[1])&&( l1[2]=l2[2])&&……..&& (l1[k-2]=l2[k-2])&&(l1[k-1]<l2[k-1])，那認為l1和l2是可連接。連接l1和l2 產(chǎn)生的結果是{l1[1],l1[2],……,l1[k-1],l2[k-1]}。

2）剪枝步

CK是LK的超集，也就是說(shuō)，CK的成員可能是也可能不是頻繁的。通過(guò)掃描所有的事務(wù)（交易），確定CK中每個(gè)候選的計數，判斷是否小于最小支持度計數，如果不是，則認為該候選是頻繁的。為了壓縮Ck,可以利用Apriori性質(zhì)：任一頻繁項集的所有非空子集也必須是頻繁的，反之，如果某個(gè)候選的非空子集不是頻繁的，那么該候選肯定不是頻繁的，從而可以將其從CK中刪除。

（Tip：為什么要壓縮CK呢？因為實(shí)際情況下事務(wù)記錄往往是保存在外存儲上，比如數據庫或者其他格式的文件上，在每次計算候選計數時(shí)都需要將候選與所有事務(wù)進(jìn)行比對，眾所周知，訪(fǎng)問(wèn)外存的效率往往都比較低，因此Apriori加入了所謂的剪枝步，事先對候選集進(jìn)行過(guò)濾，以減少訪(fǎng)問(wèn)外存的次數。）

3 Apriori算法實(shí)例

交易ID

商品ID列表

T100

I1，I2，I5

T200

I2，I4

T300

I2，I3

T400

I1，I2，I4

T500

I1，I3

T600

I2，I3

T700

I1，I3

T800

I1，I2，I3，I5

T900

I1，I2，I3

上圖為某商場(chǎng)的交易記錄，共有9個(gè)事務(wù)，利用Apriori算法尋找所有的頻繁項集的過(guò)程如下:

詳細介紹下候選3項集的集合C3的產(chǎn)生過(guò)程：從連接步，首先C3={{I1,I2,I3}，{I1,I2,I5}，{I1,I3,I5}，{I2,I3,I4}，{I2,I3,I5}，{I2,I4,I5}}（C3是由L2與自身連接產(chǎn)生）。根據Apriori性質(zhì)，頻繁項集的所有子集也必須頻繁的，可以確定有4個(gè)候選集{I1,I3,I5}，{I2,I3,I4}，{I2,I3,I5}，{I2,I4,I5}}不可能時(shí)頻繁的，因為它們存在子集不屬于頻繁集，因此將它們從C3中刪除。注意，由于A(yíng)priori算法使用逐層搜索技術(shù)，給定候選k項集后，只需檢查它們的（k-1）個(gè)子集是否頻繁。

3． Apriori偽代碼

算法：Apriori

輸入：D - 事務(wù)數據庫；min_sup - 最小支持度計數閾值

輸出：L - D中的頻繁項集

方法：

L1=find_frequent_1-itemsets(D); // 找出所有頻繁1項集

For(k=2;Lk-1!=null;k++){

Ck=apriori_gen(Lk-1); // 產(chǎn)生候選，并剪枝

For each 事務(wù)t in D{ // 掃描D進(jìn)行候選計數

Ct =subset(Ck,t); // 得到t的子集

For each 候選c 屬于 Ct

c.count++;

}

Lk={c屬于Ck | c.count>=min_sup}

}

Return L=所有的頻繁集；

Procedure apriori_gen(Lk-1:frequent(k-1)-itemsets)

For each項集l1屬于Lk-1

For each項集 l2屬于Lk-1

If((l1[1]=l2[1])&&( l1[2]=l2[2])&&……..

&& (l1[k-2]=l2[k-2])&&(l1[k-1]<l2[k-1])) then{

c=l1連接l2 //連接步：產(chǎn)生候選

if has_infrequent_subset(c,Lk-1) then

delete c; //剪枝步：刪除非頻繁候選

else add c to Ck;

}

Return Ck;

Procedure has_infrequent_sub(c:candidate k-itemset; Lk-1:frequent(k-1)-itemsets)

For each(k-1)-subset s of c

If s不屬于Lk-1 then

Return true;

Return false;

4．由頻繁項集產(chǎn)生關(guān)聯(lián)規則

Confidence(A->B)=P(B|A)=support_count(AB)/support_count(A)

關(guān)聯(lián)規則產(chǎn)生步驟如下：

1）對于每個(gè)頻繁項集l，產(chǎn)生其所有非空真子集；

2）對于每個(gè)非空真子集s,如果support_count(l)/support_count(s)>=min_conf，則輸出 s->(l-s)，其中，min_conf是最小置信度閾值。

例如，在上述例子中，針對頻繁集{I1，I2，I5}?？梢援a(chǎn)生哪些關(guān)聯(lián)規則？該頻繁集的非空真子集有{I1，I2}，{I1，I5}，{I2，I5}，{I1 }，{I2}和{I5}，對應置信度如下：

I1&&I2->I5 confidence=2/4=50%

I1&&I5->I2 confidence=2/2=100%

I2&&I5->I1 confidence=2/2=100%

I1 ->I2&&I5 confidence=2/6=33%

I2 ->I1&&I5 confidence=2/7=29%

I5 ->I1&&I2 confidence=2/2=100%

如果min_conf=70%,則強規則有I1&&I5->I2，I2&&I5->I1，I5 ->I1&&I2。

5． Apriori Java代碼

package com.apriori;

import java.util.ArrayList;

import java.util.Collections;

import java.util.HashMap;

import java.util.List;

import java.util.Map;

import java.util.Set;

public class Apriori {

private final static int SUPPORT = 2; // 支持度閾值

private final static double CONFIDENCE = 0.7; // 置信度閾值

private final static String ITEM_SPLIT=";"; // 項之間的分隔符

private final static String CON="->"; // 項之間的分隔符

private final static List<String> transList=new ArrayList<String>(); //所有交易

static{//初始化交易記錄

transList.add("1;2;5;");

transList.add("2;4;");

transList.add("2;3;");

transList.add("1;2;4;");

transList.add("1;3;");

transList.add("2;3;");

transList.add("1;3;");

transList.add("1;2;3;5;");

transList.add("1;2;3;");

}

public Map<String,Integer> getFC(){

Map<String,Integer> frequentCollectionMap=new HashMap<String,Integer>();//所有的頻繁集

frequentCollectionMap.putAll(getItem1FC());

Map<String,Integer> itemkFcMap=new HashMap<String,Integer>();

itemkFcMap.putAll(getItem1FC());

while(itemkFcMap!=null&&itemkFcMap.size()!=0){

Map<String,Integer> candidateCollection=getCandidateCollection(itemkFcMap);

Set<String> ccKeySet=candidateCollection.keySet();

//對候選集項進(jìn)行累加計數

for(String trans:transList){

for(String candidate:ccKeySet){

boolean flag=true;// 用來(lái)判斷交易中是否出現該候選項，如果出現，計數加1

String[] candidateItems=candidate.split(ITEM_SPLIT);

for(String candidateItem:candidateItems){

if(trans.indexOf(candidateItem+ITEM_SPLIT)==-1){

flag=false;

break;

}

if(flag){

Integer count=candidateCollection.get(candidate);

candidateCollection.put(candidate, count+1);

}

//從候選集中找到符合支持度的頻繁集項

itemkFcMap.clear();

for(String candidate:ccKeySet){

Integer count=candidateCollection.get(candidate);

if(count>=SUPPORT){

itemkFcMap.put(candidate, count);

}

//合并所有頻繁集

frequentCollectionMap.putAll(itemkFcMap);

}

return frequentCollectionMap;

}

private Map<String,Integer> getCandidateCollection(Map<String,Integer> itemkFcMap){

Map<String,Integer> candidateCollection=new HashMap<String,Integer>();

Set<String> itemkSet1=itemkFcMap.keySet();

Set<String> itemkSet2=itemkFcMap.keySet();

for(String itemk1:itemkSet1){

for(String itemk2:itemkSet2){

//進(jìn)行連接

String[] tmp1=itemk1.split(ITEM_SPLIT);

String[] tmp2=itemk2.split(ITEM_SPLIT);

String c="";

if(tmp1.length==1){

if(tmp1[0].compareTo(tmp2[0])<0){

c=tmp1[0]+ITEM_SPLIT+tmp2[0]+ITEM_SPLIT;

}

}else{

boolean flag=true;

for(int i=0;i<tmp1.length-1;i++){

if(!tmp1[i].equals(tmp2[i])){

flag=false;

break;

}

if(flag&&(tmp1[tmp1.length-1].compareTo(tmp2[tmp2.length-1])<0)){

c=itemk1+tmp2[tmp2.length-1]+ITEM_SPLIT;

}

//進(jìn)行剪枝

boolean hasInfrequentSubSet = false;

if (!c.equals("")) {

String[] tmpC = c.split(ITEM_SPLIT);

for (int i = 0; i < tmpC.length; i++) {

String subC = "";

for (int j = 0; j < tmpC.length; j++) {

if (i != j) {

subC = subC+tmpC[j]+ITEM_SPLIT;

}

if (itemkFcMap.get(subC) == null) {

hasInfrequentSubSet = true;

break;

}

}else{

hasInfrequentSubSet=true;

}

if(!hasInfrequentSubSet){

candidateCollection.put(c, 0);

}

return candidateCollection;

}

private Map<String,Integer> getItem1FC(){

Map<String,Integer> sItem1FcMap=new HashMap<String,Integer>();

Map<String,Integer> rItem1FcMap=new HashMap<String,Integer>();//頻繁1項集

for(String trans:transList){

String[] items=trans.split(ITEM_SPLIT);

for(String item:items){

Integer count=sItem1FcMap.get(item+ITEM_SPLIT);

if(count==null){

sItem1FcMap.put(item+ITEM_SPLIT, 1);

}else{

sItem1FcMap.put(item+ITEM_SPLIT, count+1);

}

Set<String> keySet=sItem1FcMap.keySet();

for(String key:keySet){

Integer count=sItem1FcMap.get(key);

if(count>=SUPPORT){

rItem1FcMap.put(key, count);

}

return rItem1FcMap;

}

public Map<String,Double> getRelationRules(Map<String,Integer> frequentCollectionMap){

Map<String,Double> relationRules=new HashMap<String,Double>();

Set<String> keySet=frequentCollectionMap.keySet();

for (String key : keySet) {

double countAll=frequentCollectionMap.get(key);

String[] keyItems = key.split(ITEM_SPLIT);

if(keyItems.length>1){

List<String> source=new ArrayList<String>();

Collections.addAll(source, keyItems);

List<List<String>> result=new ArrayList<List<String>>();

buildSubSet(source,result);//獲得source的所有非空子集

for(List<String> itemList:result){

if(itemList.size()<source.size()){//只處理真子集

List<String> otherList=new ArrayList<String>();

for(String sourceItem:source){

if(!itemList.contains(sourceItem)){

otherList.add(sourceItem);

}

String reasonStr="";//前置

String resultStr="";//結果

for(String item:itemList){

reasonStr=reasonStr+item+ITEM_SPLIT;

}

for(String item:otherList){

resultStr=resultStr+item+ITEM_SPLIT;

}

double countReason=frequentCollectionMap.get(reasonStr);

double itemConfidence=countAll/countReason;//計算置信度

if(itemConfidence>=CONFIDENCE){

String rule=reasonStr+CON+resultStr;

relationRules.put(rule, itemConfidence);

}

return relationRules;

}

private void buildSubSet(List<String> sourceSet, List<List<String>> result) {

// 僅有一個(gè)元素時(shí)，遞歸終止。此時(shí)非空子集僅為其自身，所以直接添加到result中

if (sourceSet.size() == 1) {

List<String> set = new ArrayList<String>();

set.add(sourceSet.get(0));

result.add(set);

} else if (sourceSet.size() > 1) {

// 當有n個(gè)元素時(shí)，遞歸求出前n-1個(gè)子集，在于result中

buildSubSet(sourceSet.subList(0, sourceSet.size() - 1), result);

int size = result.size();// 求出此時(shí)result的長(cháng)度，用于后面的追加第n個(gè)元素時(shí)計數

// 把第n個(gè)元素加入到集合中

List<String> single = new ArrayList<String>();

single.add(sourceSet.get(sourceSet.size() - 1));

result.add(single);

// 在保留前面的n-1子集的情況下，把第n個(gè)元素分別加到前n個(gè)子集中，并把新的集加入到result中;

// 為保留原有n-1的子集，所以需要先對其進(jìn)行復制

List<String> clone;

for (int i = 0; i < size; i++) {

clone = new ArrayList<String>();

for (String str : result.get(i)) {

clone.add(str);

}

clone.add(sourceSet.get(sourceSet.size() - 1));

result.add(clone);

}

public static void main(String[] args){

Apriori apriori=new Apriori();

Map<String,Integer> frequentCollectionMap=apriori.getFC();

System.out.println("----------------頻繁集"+"----------------");

Set<String> fcKeySet=frequentCollectionMap.keySet();

for(String fcKey:fcKeySet){

System.out.println(fcKey+" : "+frequentCollectionMap.get(fcKey));

}

Map<String,Double> relationRulesMap=apriori.getRelationRules(frequentCollectionMap);

System.out.println("----------------關(guān)聯(lián)規則"+"----------------");

Set<String> rrKeySet=relationRulesMap.keySet();

for(String rrKey:rrKeySet){

System.out.println(rrKey+" : "+relationRulesMap.get(rrKey));

}

本站僅提供存儲服務(wù)，所有內容均由用戶(hù)發(fā)布，如發(fā)現有害或侵權內容，請點(diǎn)擊舉報。

欧美性猛交XXXX免费看蜜桃,成人网18免费韩国,亚洲国产成人精品区综合,欧美日韩一区二区三区高清不卡,亚洲综合一区二区精品久久