Untitled

From Scribby Tamarin, 4 Years ago, written in Plain Text.

Embed

Download Paste or View Raw
Hits: 52

import pandas as pd

import numpy as np

from itertools import combinations

from itertools import permutations

from prompt_toolkit.layout import Dimension

# Data

# DODAC wpisywanie min_sup !!!!

min_sup = 0.25

custID = [1, 1, 2, 2, 2, 3, 4, 4, 4, 5]

dateOrder = [1, 2, 1, 2, 3, 1, 1, 2, 3, 1]

items = [['a'], ['a'], ['a'], ['b'], ['c', 'e'], ['a', 'e'], ['a'], ['c', 'd', 'e'], ['a'], ['a']]

singleItems = ['a', 'b', 'c', 'd', 'e']

d = {'custID': custID, 'dateOrder': dateOrder, 'items': items}

dataDF = pd.DataFrame(d)

print(dataDF)

dataDF = dataDF.set_index(pd.Index(items))

groupedData = dataDF.groupby('custID').groups

def isSubset(subset, set):

if len(subset) > len(set):

return False

counter = 0

for sub_item in subset:

if sub_item in set:

counter += 1

return counter == len(subset)

def SupportCounter(pattern):

support = 0

for key in groupedData:

shouldOccure = len(pattern)

occurance = 0

for item in pattern:

occurance += groupedData[key].count(item)

if (occurance == shouldOccure):

support = support + 1

occurance = 0

return support

def FindFrequentSetInDataSet(itemToCheckIfFrequent):

inHowManyGroupsItemOccured = 0

itemCounter = 0

for group in groupedData:

itemCounterPerGroup = 0

for items in groupedData[group]:

if isSubset(itemToCheckIfFrequent, items):

itemCounter += 1

itemCounterPerGroup += 1

if (itemCounterPerGroup > 0):

inHowManyGroupsItemOccured += 1

return inHowManyGroupsItemOccured

for group in groupedData:

groupedData[group] = pd.array(groupedData[group])

L1 = []

itemTable = singleItems[:]

all_frequent_sets = []

DSPower = len(groupedData)

for item in singleItems:

occurancesInAllEvents = FindFrequentSetInDataSet(item)

if (occurancesInAllEvents / DSPower >= min_sup):

L1.append(item)

all_frequent_sets.append([item])

print("L1:", all_frequent_sets)

flag = True

counter_length = 2

frequent_set = []

for i in range(0, len(items)):

dlugosc = len(items[i])

j = 0

while j < dlugosc:

if items[i][j] not in L1:

items[i].pop(j)

dlugosc -= 1

j += 1

d2 = {'custID': custID, 'items': items}

dataDF2 = pd.DataFrame(d2)

newDFArray = []

for index, row in dataDF2.iterrows():

emptyArrayCheck = row["items"]

if len(emptyArrayCheck) > 0:

newDFArray.append(row)

newDF = pd.DataFrame(newDFArray)

while flag:

current_candidates = combinations(L1, counter_length)

current_candidates = np.array(list(current_candidates))

for item in current_candidates:

occurrences = FindFrequentSetInDataSet(item)

if occurrences / DSPower >= min_sup:

frequent_set.append(item)

all_frequent_sets.append(list(item))

print("L" + str(counter_length) + ":", np.array(list(frequent_set)))

if len(frequent_set) == 0 or len(L1) - 1 <= counter_length:

break

frequent_set = []

counter_length += 1

frequent_dict = dict()

number = 1

for i in all_frequent_sets:

d = {number: i}

frequent_dict.update(d)

number += 1

columns = {'sets': all_frequent_sets, 'values': range(1, len(all_frequent_sets) + 1)}

df_frequent = pd.DataFrame(columns)

print("Odwzorowanie:")

print(df_frequent)

tmpTable = []

new_list = [[x] for x in newDF['items']]

for item in new_list:

if len(item[0]) > 1:

tmp = item[:]

z = [[x] for x in tmp[0]]

y = []

z.append(item[0])

for i in range(0, len(z)):

if (z[i] in all_frequent_sets):

y.append(z[i])

item[0] = y[:]

for i in range(0, len(new_list)):

if len(new_list[i][0]) > 1:

new_list[i] = new_list[i][0]

for i in range(0, len(new_list)):

for j in range(0, len(new_list[i])):

iterator = 0

for mySet in df_frequent["sets"]:

tmpValue = df_frequent.at[iterator, "values"]

if new_list[i][j] == mySet:

new_list[i][j] = tmpValue

break

iterator += 1

newDF["items"] = new_list

print("Po Transfromacji i odwzorowaniu:")

print(newDF)

newDF = newDF.set_index(pd.Index(newDF["items"]))

groupedData2 = newDF.groupby('custID').groups

allCand = []

for i in range(1, len(df_frequent["values"]) + 1):

for j in range(1, len(df_frequent["values"]) + 1):

tmp = [i, j]

allCand.append(tmp)

frequent_formatted = []

for cand in allCand:

occurances = 0

for i in range(1, max(newDF["custID"]) + 1):

semi_occurance = 0

counter = 0

for tran in groupedData2[i]:

if cand[counter] in tran:

semi_occurance += 1

counter += 1

if counter > 1:

break

if semi_occurance > 1:

occurances += 1

support = occurances/max(newDF["custID"])

if support > min_sup:

frequent_formatted.append((cand , support))

for i in frequent_formatted:

print(i)

Author

Title

Language

Your paste - Paste your paste here

import pandas as pd
import numpy as np
from itertools import combinations
from itertools import permutations

from prompt_toolkit.layout import Dimension

# Data
# DODAC wpisywanie min_sup !!!!
min_sup = 0.25
custID = [1, 1, 2, 2, 2, 3, 4, 4, 4, 5]
dateOrder = [1, 2, 1, 2, 3, 1, 1, 2, 3, 1]
items = [['a'], ['a'], ['a'], ['b'], ['c', 'e'], ['a', 'e'], ['a'], ['c', 'd', 'e'], ['a'], ['a']]
singleItems = ['a', 'b', 'c', 'd', 'e']
d = {'custID': custID, 'dateOrder': dateOrder, 'items': items}
dataDF = pd.DataFrame(d)

print(dataDF)
dataDF = dataDF.set_index(pd.Index(items))

groupedData = dataDF.groupby('custID').groups

def isSubset(subset, set):
    if len(subset) &gt; len(set):
        return False
    counter = 0
    for sub_item in subset:
        if sub_item in set:
            counter += 1

return counter == len(subset)

def SupportCounter(pattern):
    support = 0
    for key in groupedData:
        shouldOccure = len(pattern)
        occurance = 0
        for item in pattern:
            occurance += groupedData[key].count(item)
        if (occurance == shouldOccure):
            support = support + 1
        occurance = 0
    return support

def FindFrequentSetInDataSet(itemToCheckIfFrequent):
    inHowManyGroupsItemOccured = 0
    itemCounter = 0
    for group in groupedData:
        itemCounterPerGroup = 0
        for items in groupedData[group]:
            if isSubset(itemToCheckIfFrequent, items):
                itemCounter += 1
                itemCounterPerGroup += 1
        if (itemCounterPerGroup &gt; 0):
            inHowManyGroupsItemOccured += 1
    return inHowManyGroupsItemOccured

for group in groupedData:
    groupedData[group] = pd.array(groupedData[group])

L1 = []
itemTable = singleItems[:]
all_frequent_sets = []
DSPower = len(groupedData)
for item in singleItems:
    occurancesInAllEvents = FindFrequentSetInDataSet(item)
    if (occurancesInAllEvents / DSPower &gt;= min_sup):
        L1.append(item)
        all_frequent_sets.append([item])

print(&quot;L1:&quot;, all_frequent_sets)
flag = True
counter_length = 2
frequent_set = []
for i in range(0, len(items)):
    dlugosc = len(items[i])
    j = 0
    while j &lt; dlugosc:
        if items[i][j] not in L1:
            items[i].pop(j)
            dlugosc -= 1
        j += 1

d2 = {'custID': custID, 'items': items}
dataDF2 = pd.DataFrame(d2)
newDFArray = []
for index, row in dataDF2.iterrows():
    emptyArrayCheck = row[&quot;items&quot;]
    if len(emptyArrayCheck) &gt; 0:
        newDFArray.append(row)
newDF = pd.DataFrame(newDFArray)

while flag:

current_candidates = combinations(L1, counter_length)
    current_candidates = np.array(list(current_candidates))
    for item in current_candidates:
        occurrences = FindFrequentSetInDataSet(item)
        if occurrences / DSPower &gt;= min_sup:
            frequent_set.append(item)
            all_frequent_sets.append(list(item))
    print(&quot;L&quot; + str(counter_length) + &quot;:&quot;, np.array(list(frequent_set)))
    if len(frequent_set) == 0 or len(L1) - 1 &lt;= counter_length:
        break
    frequent_set = []
    counter_length += 1

frequent_dict = dict()
number = 1
for i in all_frequent_sets:
    d = {number: i}
    frequent_dict.update(d)
    number += 1

columns = {'sets': all_frequent_sets, 'values': range(1, len(all_frequent_sets) + 1)}
df_frequent = pd.DataFrame(columns)
print(&quot;Odwzorowanie:&quot;)
print(df_frequent)

tmpTable = []
new_list = [[x] for x in newDF['items']]

for item in new_list:
    if len(item[0]) &gt; 1:
        tmp = item[:]
        z = [[x] for x in tmp[0]]
        y = []
        z.append(item[0])
        for i in range(0, len(z)):
            if (z[i] in all_frequent_sets):
                y.append(z[i])

item[0] = y[:]

for i in range(0, len(new_list)):
    if len(new_list[i][0]) &gt; 1:
        new_list[i] = new_list[i][0]

for i in range(0, len(new_list)):
    for j in range(0, len(new_list[i])):
        iterator = 0
        for mySet in df_frequent[&quot;sets&quot;]:
            tmpValue = df_frequent.at[iterator, &quot;values&quot;]
            if new_list[i][j] == mySet:
                new_list[i][j] = tmpValue
                break
            iterator += 1

newDF[&quot;items&quot;] = new_list
print(&quot;Po Transfromacji i odwzorowaniu:&quot;)
print(newDF)

newDF = newDF.set_index(pd.Index(newDF[&quot;items&quot;]))
groupedData2 = newDF.groupby('custID').groups

allCand = []
for i in range(1, len(df_frequent[&quot;values&quot;]) + 1):
    for j in range(1, len(df_frequent[&quot;values&quot;]) + 1):
        tmp = [i, j]
        allCand.append(tmp)

frequent_formatted = []
for cand in allCand:
    occurances = 0
    for i in range(1, max(newDF[&quot;custID&quot;]) + 1):
        semi_occurance = 0
        counter = 0
        for tran in groupedData2[i]:
            if cand[counter] in tran:
                semi_occurance += 1
                counter += 1
                if counter &gt; 1:
                    break
        if semi_occurance &gt; 1:
            occurances += 1
    support = occurances/max(newDF[&quot;custID&quot;])
    if support &gt; min_sup:
        frequent_formatted.append((cand , support))

for i in frequent_formatted:
    print(i)

Private - Private paste aren't shown in recent listings.

Delete After - When should we delete your paste?

Spam protection -

Reply to "Untitled"