Data preparation with command line » Historique » Version 3
François Rioult, 03/12/2020 15:15
1 | 1 | François Rioult | h1. Data preparation with command line |
---|---|---|---|
2 | |||
3 | 2 | François Rioult | h2. Pré-requis |
4 | |||
5 | * "Installer les pré-requis de KDAriane":https://forge.greyc.fr/projects/kdariane/wiki/Prerequisite (laisser tomber le côté Java, nous n'en aurons pas besoin) |
||
6 | 3 | François Rioult | * "Installer KDAriane":https://forge.greyc.fr/projects/kdariane/wiki/KDAriane |
7 | 1 | François Rioult | |
8 | 3 | François Rioult | h2. Chaîne de traitement |
9 | 1 | François Rioult | |
10 | 3 | François Rioult | Nous allons travailler sur les données @zoo.csv@, dans le dossier @data@ |
11 | 1 | François Rioult | <pre> |
12 | 1,1,0,0,1,0,0,1,1,1,1,0,0,4,0,0,1 |
||
13 | 1,1,0,0,1,0,0,0,1,1,1,0,0,4,1,0,1 |
||
14 | 4,0,0,1,0,0,1,1,1,1,0,0,1,0,1,0,0 |
||
15 | 1,1,0,0,1,0,0,1,1,1,1,0,0,4,0,0,1 |
||
16 | 1,1,0,0,1,0,0,1,1,1,1,0,0,4,1,0,1 |
||
17 | 1,1,0,0,1,0,0,0,1,1,1,0,0,4,1,0,1 |
||
18 | 1,1,0,0,1,0,0,0,1,1,1,0,0,4,1,1,1 |
||
19 | ... |
||
20 | </pre> |
||
21 | |||
22 | 3 | François Rioult | Il y a aussi un fichier décrivant les colonnes : @zoo.col@ |
23 | 1 | François Rioult | <pre> |
24 | 0 Class |
||
25 | 0 hair |
||
26 | 0 feathers |
||
27 | 0 eggs |
||
28 | 0 milk |
||
29 | 0 airborne |
||
30 | 0 aquatic |
||
31 | 0 predator |
||
32 | 0 toothed |
||
33 | 0 backbone |
||
34 | 0 breathes |
||
35 | 0 venomous |
||
36 | 0 fins |
||
37 | 0 legs |
||
38 | 0 tail |
||
39 | 0 domestic |
||
40 | 0 catsize |
||
41 | </pre> |
||
42 | |||
43 | 3 | François Rioult | La première étape consiste à répertorier les différentes valeurs pour chaque attribut : |
44 | 1 | François Rioult | <pre> |
45 | 3 | François Rioult | $ dictionary zoo.csv zoo.col |
46 | 1 | François Rioult | #Class |
47 | 1 |
||
48 | 2 |
||
49 | 3 |
||
50 | 4 |
||
51 | 5 |
||
52 | 6 |
||
53 | 7 |
||
54 | #hair |
||
55 | 0 |
||
56 | 1 |
||
57 | #feathers |
||
58 | 0 |
||
59 | 1 |
||
60 | #eggs |
||
61 | 0 |
||
62 | 1 |
||
63 | ... |
||
64 | </pre> |
||
65 | 3 | François Rioult | |
66 | Cette première étape pourrait déjà faire l'objet d'un démonstrateur @swapper@. |
||
67 | |||
68 | On va enregistrer ce résultat : |
||
69 | 1 | François Rioult | <pre> |
70 | 3 | François Rioult | dictionary zoo.csv zoo.col > zoo.dico |
71 | </pre> |
||
72 | |||
73 | Il est maintenant possible de remplacer chaque valeur par un identifiant entier, de façon à obtenir des données au format transactionnel : |
||
74 | <pre> |
||
75 | $ segmentation zoo.csv zoo.dico zoo.bin zoo.trad |
||
76 | $ cat zoo.bin |
||
77 | 1 9 10 12 15 16 18 21 23 25 27 28 30 34 38 40 43 |
||
78 | 1 9 10 12 15 16 18 20 23 25 27 28 30 34 39 40 43 |
||
79 | 4 8 10 13 14 16 19 21 23 25 26 28 31 32 39 40 42 |
||
80 | 1 9 10 12 15 16 18 21 23 25 27 28 30 34 38 40 43 |
||
81 | 1 9 10 12 15 16 18 21 23 25 27 28 30 34 39 40 43 |
||
82 | 1 9 10 12 15 16 18 20 23 25 27 28 30 34 39 40 43 |
||
83 | 1 | François Rioult | 1 9 10 12 15 16 18 20 23 25 27 28 30 34 39 41 43 |
84 | 3 | François Rioult | ... |
85 | 1 | François Rioult | </pre> |
86 | 3 | François Rioult | et le fichier de traduction : |
87 | 1 | François Rioult | <pre> |
88 | 3 | François Rioult | $ cat zoo.trad |
89 | 1 | François Rioult | #0 |
90 | 1 Class<=1 |
||
91 | 2 Class<=2 |
||
92 | 3 Class<=3 |
||
93 | 4 Class<=4 |
||
94 | 5 Class<=5 |
||
95 | 6 Class<=6 |
||
96 | 7 Class<=7 |
||
97 | #1 |
||
98 | 8 hair<=0 |
||
99 | 9 hair<=1 |
||
100 | #2 |
||
101 | 10 feathers<=0 |
||
102 | 11 feathers<=1 |
||
103 | #3 |
||
104 | 12 eggs<=0 |
||
105 | 13 eggs<=1 |
||
106 | #4 |
||
107 | 14 milk<=0 |
||
108 | 15 milk<=1 |
||
109 | 3 | François Rioult | ... |
110 | 1 | François Rioult | </pre> |
111 | 3 | François Rioult | |
112 | h2. Un premier scénario de fouille avec paramètres |
||
113 | |||
114 | On extrait les règles sans exception (-d 0), de support minimal 10% (-s 0.1) : |
||
115 | <pre> |
||
116 | $ mvminer -s 0.1 -d 0 -i zoo.bin | more |
||
117 | </pre> |
||
118 | |||
119 | Même chose avec traduction des résultats : |
||
120 | <pre> |
||
121 | $ mvminer -s 0.1 -d 0 -i zoo.bin | translation zoo.trad | more |
||
122 | </pre> |