annotate scripts/setup_batches.py @ 379:a21a174c1c18

added writeup skeleton
author Yoshua Bengio <bengioy@iro.umontreal.ca>
date Mon, 26 Apr 2010 14:56:06 -0400
parents a6b6b1140de9
children 5b260cc8f477
rev   line source
272
f6d9b6b89c2a ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff changeset
1 # -*- coding: utf-8 -*-
f6d9b6b89c2a ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff changeset
2
f6d9b6b89c2a ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff changeset
3 import random
295
a6b6b1140de9 modifié setup_batches.py pour compatibilité avec mlp_nist.py
Guillaume Sicard <guitch21@gmail.com>
parents: 272
diff changeset
4 from numpy import *
272
f6d9b6b89c2a ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff changeset
5 from pylearn.io import filetensor as ft
f6d9b6b89c2a ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff changeset
6
f6d9b6b89c2a ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff changeset
7 class Batches():
f6d9b6b89c2a ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff changeset
8 def __init__(self):
f6d9b6b89c2a ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff changeset
9 data_path = '/data/lisa/data/nist/by_class/'
f6d9b6b89c2a ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff changeset
10
f6d9b6b89c2a ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff changeset
11 digits_train_data = 'digits/digits_train_data.ft'
f6d9b6b89c2a ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff changeset
12 digits_train_labels = 'digits/digits_train_labels.ft'
f6d9b6b89c2a ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff changeset
13 digits_test_data = 'digits/digits_test_data.ft'
f6d9b6b89c2a ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff changeset
14 digits_test_labels = 'digits/digits_test_labels.ft'
f6d9b6b89c2a ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff changeset
15
f6d9b6b89c2a ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff changeset
16 lower_train_data = 'lower/lower_train_data.ft'
f6d9b6b89c2a ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff changeset
17 lower_train_labels = 'lower/lower_train_labels.ft'
f6d9b6b89c2a ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff changeset
18 #upper_train_data = 'upper/upper_train_data.ft'
f6d9b6b89c2a ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff changeset
19 #upper_train_labels = 'upper/upper_train_labels.ft'
f6d9b6b89c2a ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff changeset
20
295
a6b6b1140de9 modifié setup_batches.py pour compatibilité avec mlp_nist.py
Guillaume Sicard <guitch21@gmail.com>
parents: 272
diff changeset
21 print 'Opening data...'
a6b6b1140de9 modifié setup_batches.py pour compatibilité avec mlp_nist.py
Guillaume Sicard <guitch21@gmail.com>
parents: 272
diff changeset
22
272
f6d9b6b89c2a ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff changeset
23 f_digits_train_data = open(data_path + digits_train_data)
f6d9b6b89c2a ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff changeset
24 f_digits_train_labels = open(data_path + digits_train_labels)
f6d9b6b89c2a ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff changeset
25 f_digits_test_data = open(data_path + digits_test_data)
f6d9b6b89c2a ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff changeset
26 f_digits_test_labels = open(data_path + digits_test_labels)
f6d9b6b89c2a ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff changeset
27
f6d9b6b89c2a ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff changeset
28 f_lower_train_data = open(data_path + lower_train_data)
f6d9b6b89c2a ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff changeset
29 f_lower_train_labels = open(data_path + lower_train_labels)
f6d9b6b89c2a ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff changeset
30 #f_upper_train_data = open(data_path + upper_train_data)
f6d9b6b89c2a ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff changeset
31 #f_upper_train_labels = open(data_path + upper_train_labels)
f6d9b6b89c2a ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff changeset
32
f6d9b6b89c2a ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff changeset
33 self.raw_digits_train_data = ft.read(f_digits_train_data)
f6d9b6b89c2a ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff changeset
34 self.raw_digits_train_labels = ft.read(f_digits_train_labels)
f6d9b6b89c2a ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff changeset
35 self.raw_digits_test_data = ft.read(f_digits_test_data)
f6d9b6b89c2a ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff changeset
36 self.raw_digits_test_labels = ft.read(f_digits_test_labels)
f6d9b6b89c2a ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff changeset
37
f6d9b6b89c2a ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff changeset
38 self.raw_lower_train_data = ft.read(f_lower_train_data)
f6d9b6b89c2a ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff changeset
39 self.raw_lower_train_labels = ft.read(f_lower_train_labels)
f6d9b6b89c2a ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff changeset
40 #self.raw_upper_train_data = ft.read(f_upper_train_data)
f6d9b6b89c2a ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff changeset
41 #self.raw_upper_train_labels = ft.read(f_upper_train_labels)
f6d9b6b89c2a ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff changeset
42
f6d9b6b89c2a ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff changeset
43 f_digits_train_data.close()
f6d9b6b89c2a ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff changeset
44 f_digits_train_labels.close()
f6d9b6b89c2a ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff changeset
45 f_digits_test_data.close()
f6d9b6b89c2a ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff changeset
46 f_digits_test_labels.close()
f6d9b6b89c2a ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff changeset
47
f6d9b6b89c2a ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff changeset
48 f_lower_train_data.close()
f6d9b6b89c2a ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff changeset
49 f_lower_train_labels.close()
f6d9b6b89c2a ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff changeset
50 #f_upper_train_data.close()
f6d9b6b89c2a ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff changeset
51 #f_upper_train_labels.close()
f6d9b6b89c2a ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff changeset
52
295
a6b6b1140de9 modifié setup_batches.py pour compatibilité avec mlp_nist.py
Guillaume Sicard <guitch21@gmail.com>
parents: 272
diff changeset
53 print 'Data opened'
a6b6b1140de9 modifié setup_batches.py pour compatibilité avec mlp_nist.py
Guillaume Sicard <guitch21@gmail.com>
parents: 272
diff changeset
54
272
f6d9b6b89c2a ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff changeset
55 def set_batches(self, start_ratio = -1, end_ratio = -1, batch_size = 20, verbose = False):
f6d9b6b89c2a ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff changeset
56 self.batch_size = batch_size
f6d9b6b89c2a ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff changeset
57
f6d9b6b89c2a ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff changeset
58 digits_train_size = len(self.raw_digits_train_labels)
f6d9b6b89c2a ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff changeset
59 digits_test_size = len(self.raw_digits_test_labels)
f6d9b6b89c2a ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff changeset
60
f6d9b6b89c2a ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff changeset
61 lower_train_size = len(self.raw_lower_train_labels)
f6d9b6b89c2a ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff changeset
62 #upper_train_size = len(self.raw_upper_train_labels)
f6d9b6b89c2a ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff changeset
63
f6d9b6b89c2a ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff changeset
64 if verbose == True:
f6d9b6b89c2a ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff changeset
65 print 'digits_train_size = %d' %digits_train_size
f6d9b6b89c2a ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff changeset
66 print 'digits_test_size = %d' %digits_test_size
f6d9b6b89c2a ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff changeset
67 print 'lower_train_size = %d' %lower_train_size
f6d9b6b89c2a ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff changeset
68 #print 'upper_train_size = %d' %upper_train_size
f6d9b6b89c2a ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff changeset
69
f6d9b6b89c2a ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff changeset
70 # define main and other datasets
f6d9b6b89c2a ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff changeset
71 raw_main_train_data = self.raw_digits_train_data
f6d9b6b89c2a ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff changeset
72 raw_other_train_data = self.raw_lower_train_labels
295
a6b6b1140de9 modifié setup_batches.py pour compatibilité avec mlp_nist.py
Guillaume Sicard <guitch21@gmail.com>
parents: 272
diff changeset
73 raw_test_data = self.raw_digits_test_data
272
f6d9b6b89c2a ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff changeset
74
f6d9b6b89c2a ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff changeset
75 raw_main_train_labels = self.raw_digits_train_labels
f6d9b6b89c2a ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff changeset
76 raw_other_train_labels = self.raw_lower_train_labels
f6d9b6b89c2a ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff changeset
77 raw_test_labels = self.raw_digits_test_labels
f6d9b6b89c2a ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff changeset
78
f6d9b6b89c2a ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff changeset
79 main_train_size = len(raw_main_train_data)
f6d9b6b89c2a ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff changeset
80 other_train_size = len(raw_other_train_data)
295
a6b6b1140de9 modifié setup_batches.py pour compatibilité avec mlp_nist.py
Guillaume Sicard <guitch21@gmail.com>
parents: 272
diff changeset
81 test_size = len(raw_test_labels)
272
f6d9b6b89c2a ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff changeset
82 test_size = int(test_size/batch_size)
f6d9b6b89c2a ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff changeset
83 test_size *= batch_size
f6d9b6b89c2a ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff changeset
84 validation_size = test_size
f6d9b6b89c2a ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff changeset
85
f6d9b6b89c2a ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff changeset
86 # default ratio is actual ratio
f6d9b6b89c2a ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff changeset
87 if start_ratio == -1:
f6d9b6b89c2a ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff changeset
88 self.start_ratio = float(main_train_size) / float(main_train_size + other_train_size)
f6d9b6b89c2a ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff changeset
89 else:
f6d9b6b89c2a ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff changeset
90 self.start_ratio = start_ratio
f6d9b6b89c2a ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff changeset
91
f6d9b6b89c2a ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff changeset
92 if start_ratio == -1:
f6d9b6b89c2a ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff changeset
93 self.end_ratio = float(main_train_size) / float(main_train_size + other_train_size)
f6d9b6b89c2a ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff changeset
94 else:
f6d9b6b89c2a ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff changeset
95 self.end_ratio = end_ratio
f6d9b6b89c2a ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff changeset
96
f6d9b6b89c2a ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff changeset
97 if verbose == True:
f6d9b6b89c2a ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff changeset
98 print 'start_ratio = %f' %self.start_ratio
f6d9b6b89c2a ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff changeset
99 print 'end_ratio = %f' %self.end_ratio
f6d9b6b89c2a ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff changeset
100
f6d9b6b89c2a ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff changeset
101 i_main = 0
f6d9b6b89c2a ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff changeset
102 i_other = 0
f6d9b6b89c2a ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff changeset
103 i_batch = 0
f6d9b6b89c2a ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff changeset
104
f6d9b6b89c2a ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff changeset
105 # compute the number of batches given start and end ratios
f6d9b6b89c2a ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff changeset
106 n_main_batch = (main_train_size - batch_size * (self.end_ratio - self.start_ratio) / 2 ) / (batch_size * (self.start_ratio + (self.end_ratio - self.start_ratio) / 2))
f6d9b6b89c2a ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff changeset
107 n_other_batch = (other_train_size - batch_size * (self.end_ratio - self.start_ratio) / 2 ) / (batch_size - batch_size * (self.start_ratio + (self.end_ratio - self.start_ratio) / 2))
f6d9b6b89c2a ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff changeset
108 n_batches = min([n_main_batch, n_other_batch])
f6d9b6b89c2a ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff changeset
109
f6d9b6b89c2a ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff changeset
110 # train batches
f6d9b6b89c2a ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff changeset
111 self.train_batches = []
f6d9b6b89c2a ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff changeset
112
f6d9b6b89c2a ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff changeset
113 # as long as we have data left in main and other, we create batches
f6d9b6b89c2a ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff changeset
114 while i_main < main_train_size - batch_size - test_size and i_other < other_train_size - batch_size:
f6d9b6b89c2a ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff changeset
115
f6d9b6b89c2a ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff changeset
116 ratio = self.start_ratio + i_batch * (self.end_ratio - self.start_ratio) / n_batches
295
a6b6b1140de9 modifié setup_batches.py pour compatibilité avec mlp_nist.py
Guillaume Sicard <guitch21@gmail.com>
parents: 272
diff changeset
117 batch_data = raw_main_train_data[0:self.batch_size]
a6b6b1140de9 modifié setup_batches.py pour compatibilité avec mlp_nist.py
Guillaume Sicard <guitch21@gmail.com>
parents: 272
diff changeset
118 batch_labels = raw_main_train_labels[0:self.batch_size]
272
f6d9b6b89c2a ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff changeset
119
f6d9b6b89c2a ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff changeset
120 for i in xrange(0, self.batch_size): # randomly choose between main and other, given the current ratio
f6d9b6b89c2a ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff changeset
121 rnd = random.randint(0, 100)
f6d9b6b89c2a ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff changeset
122
f6d9b6b89c2a ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff changeset
123 if rnd < 100 * ratio:
295
a6b6b1140de9 modifié setup_batches.py pour compatibilité avec mlp_nist.py
Guillaume Sicard <guitch21@gmail.com>
parents: 272
diff changeset
124 batch_data[i] = raw_main_train_data[i_main]
a6b6b1140de9 modifié setup_batches.py pour compatibilité avec mlp_nist.py
Guillaume Sicard <guitch21@gmail.com>
parents: 272
diff changeset
125 batch_labels[i] = raw_main_train_labels[i_main]
272
f6d9b6b89c2a ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff changeset
126 i_main += 1
f6d9b6b89c2a ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff changeset
127 else:
295
a6b6b1140de9 modifié setup_batches.py pour compatibilité avec mlp_nist.py
Guillaume Sicard <guitch21@gmail.com>
parents: 272
diff changeset
128 batch_data[i] = raw_other_train_data[i_other]
a6b6b1140de9 modifié setup_batches.py pour compatibilité avec mlp_nist.py
Guillaume Sicard <guitch21@gmail.com>
parents: 272
diff changeset
129 batch_labels[i] = raw_other_train_labels[i_other] - 26 #to put values between 10 and 35 for lower case
272
f6d9b6b89c2a ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff changeset
130 i_other += 1
f6d9b6b89c2a ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff changeset
131
f6d9b6b89c2a ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff changeset
132 self.train_batches = self.train_batches + \
295
a6b6b1140de9 modifié setup_batches.py pour compatibilité avec mlp_nist.py
Guillaume Sicard <guitch21@gmail.com>
parents: 272
diff changeset
133 [(batch_data, batch_labels)]
272
f6d9b6b89c2a ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff changeset
134 i_batch += 1
f6d9b6b89c2a ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff changeset
135
f6d9b6b89c2a ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff changeset
136 offset = i_main
f6d9b6b89c2a ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff changeset
137
f6d9b6b89c2a ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff changeset
138 # test batches
f6d9b6b89c2a ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff changeset
139 self.test_batches = []
f6d9b6b89c2a ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff changeset
140 for i in xrange(0, test_size, batch_size):
f6d9b6b89c2a ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff changeset
141 self.test_batches = self.test_batches + \
f6d9b6b89c2a ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff changeset
142 [(raw_test_data[i:i+batch_size], raw_test_labels[i:i+batch_size])]
f6d9b6b89c2a ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff changeset
143
f6d9b6b89c2a ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff changeset
144 # validation batches
f6d9b6b89c2a ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff changeset
145 self.validation_batches = []
f6d9b6b89c2a ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff changeset
146 for i in xrange(0, test_size, batch_size):
f6d9b6b89c2a ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff changeset
147 self.validation_batches = self.validation_batches + \
f6d9b6b89c2a ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff changeset
148 [(raw_main_train_data[offset+i:offset+i+batch_size], raw_main_train_labels[offset+i:offset+i+batch_size])]
f6d9b6b89c2a ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff changeset
149
295
a6b6b1140de9 modifié setup_batches.py pour compatibilité avec mlp_nist.py
Guillaume Sicard <guitch21@gmail.com>
parents: 272
diff changeset
150 if verbose == True:
a6b6b1140de9 modifié setup_batches.py pour compatibilité avec mlp_nist.py
Guillaume Sicard <guitch21@gmail.com>
parents: 272
diff changeset
151 print 'n_main = %d' %i_main
a6b6b1140de9 modifié setup_batches.py pour compatibilité avec mlp_nist.py
Guillaume Sicard <guitch21@gmail.com>
parents: 272
diff changeset
152 print 'n_other = %d' %i_other
a6b6b1140de9 modifié setup_batches.py pour compatibilité avec mlp_nist.py
Guillaume Sicard <guitch21@gmail.com>
parents: 272
diff changeset
153 print 'nb_train_batches = %d / %d' %(i_batch,n_batches)
a6b6b1140de9 modifié setup_batches.py pour compatibilité avec mlp_nist.py
Guillaume Sicard <guitch21@gmail.com>
parents: 272
diff changeset
154 print 'offset = %d' %offset
a6b6b1140de9 modifié setup_batches.py pour compatibilité avec mlp_nist.py
Guillaume Sicard <guitch21@gmail.com>
parents: 272
diff changeset
155
272
f6d9b6b89c2a ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff changeset
156 def get_train_batches(self):
f6d9b6b89c2a ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff changeset
157 return self.train_batches
f6d9b6b89c2a ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff changeset
158
f6d9b6b89c2a ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff changeset
159 def get_test_batches(self):
f6d9b6b89c2a ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff changeset
160 return self.test_batches
f6d9b6b89c2a ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff changeset
161
f6d9b6b89c2a ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff changeset
162 def get_validation_batches(self):
f6d9b6b89c2a ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff changeset
163 return self.validation_batches
f6d9b6b89c2a ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff changeset
164
f6d9b6b89c2a ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff changeset
165 def test_set_batches(self, intervall = 1000):
f6d9b6b89c2a ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff changeset
166 for i in xrange(0, len(self.train_batches) - self.batch_size, intervall):
f6d9b6b89c2a ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff changeset
167 n_main = 0
f6d9b6b89c2a ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff changeset
168
f6d9b6b89c2a ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff changeset
169 for j in xrange(0, self.batch_size):
f6d9b6b89c2a ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff changeset
170 if self.train_batches[i][1][j] < 10:
f6d9b6b89c2a ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff changeset
171 n_main +=1
f6d9b6b89c2a ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff changeset
172 print 'ratio batch %d : %f' %(i,float(n_main) / float(self.batch_size))
f6d9b6b89c2a ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff changeset
173
f6d9b6b89c2a ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff changeset
174 if __name__ == '__main__':
f6d9b6b89c2a ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff changeset
175 batches = Batches()
f6d9b6b89c2a ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff changeset
176 batches.set_batches(0.5,1, 20, True)
f6d9b6b89c2a ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff changeset
177 batches.test_set_batches()