Mercurial > ift6266
annotate scripts/setup_batches.py @ 279:206374eed2fb
Merge
author | fsavard |
---|---|
date | Wed, 24 Mar 2010 14:36:55 -0400 |
parents | f6d9b6b89c2a |
children | a6b6b1140de9 |
rev | line source |
---|---|
272
f6d9b6b89c2a
ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff
changeset
|
1 # -*- coding: utf-8 -*- |
f6d9b6b89c2a
ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff
changeset
|
2 |
f6d9b6b89c2a
ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff
changeset
|
3 import random |
f6d9b6b89c2a
ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff
changeset
|
4 from pylearn.io import filetensor as ft |
f6d9b6b89c2a
ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff
changeset
|
5 |
f6d9b6b89c2a
ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff
changeset
|
6 class Batches(): |
f6d9b6b89c2a
ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff
changeset
|
7 def __init__(self): |
f6d9b6b89c2a
ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff
changeset
|
8 data_path = '/data/lisa/data/nist/by_class/' |
f6d9b6b89c2a
ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff
changeset
|
9 |
f6d9b6b89c2a
ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff
changeset
|
10 digits_train_data = 'digits/digits_train_data.ft' |
f6d9b6b89c2a
ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff
changeset
|
11 digits_train_labels = 'digits/digits_train_labels.ft' |
f6d9b6b89c2a
ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff
changeset
|
12 digits_test_data = 'digits/digits_test_data.ft' |
f6d9b6b89c2a
ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff
changeset
|
13 digits_test_labels = 'digits/digits_test_labels.ft' |
f6d9b6b89c2a
ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff
changeset
|
14 |
f6d9b6b89c2a
ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff
changeset
|
15 lower_train_data = 'lower/lower_train_data.ft' |
f6d9b6b89c2a
ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff
changeset
|
16 lower_train_labels = 'lower/lower_train_labels.ft' |
f6d9b6b89c2a
ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff
changeset
|
17 #upper_train_data = 'upper/upper_train_data.ft' |
f6d9b6b89c2a
ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff
changeset
|
18 #upper_train_labels = 'upper/upper_train_labels.ft' |
f6d9b6b89c2a
ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff
changeset
|
19 |
f6d9b6b89c2a
ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff
changeset
|
20 f_digits_train_data = open(data_path + digits_train_data) |
f6d9b6b89c2a
ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff
changeset
|
21 f_digits_train_labels = open(data_path + digits_train_labels) |
f6d9b6b89c2a
ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff
changeset
|
22 f_digits_test_data = open(data_path + digits_test_data) |
f6d9b6b89c2a
ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff
changeset
|
23 f_digits_test_labels = open(data_path + digits_test_labels) |
f6d9b6b89c2a
ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff
changeset
|
24 |
f6d9b6b89c2a
ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff
changeset
|
25 f_lower_train_data = open(data_path + lower_train_data) |
f6d9b6b89c2a
ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff
changeset
|
26 f_lower_train_labels = open(data_path + lower_train_labels) |
f6d9b6b89c2a
ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff
changeset
|
27 #f_upper_train_data = open(data_path + upper_train_data) |
f6d9b6b89c2a
ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff
changeset
|
28 #f_upper_train_labels = open(data_path + upper_train_labels) |
f6d9b6b89c2a
ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff
changeset
|
29 |
f6d9b6b89c2a
ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff
changeset
|
30 self.raw_digits_train_data = ft.read(f_digits_train_data) |
f6d9b6b89c2a
ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff
changeset
|
31 self.raw_digits_train_labels = ft.read(f_digits_train_labels) |
f6d9b6b89c2a
ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff
changeset
|
32 self.raw_digits_test_data = ft.read(f_digits_test_data) |
f6d9b6b89c2a
ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff
changeset
|
33 self.raw_digits_test_labels = ft.read(f_digits_test_labels) |
f6d9b6b89c2a
ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff
changeset
|
34 |
f6d9b6b89c2a
ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff
changeset
|
35 self.raw_lower_train_data = ft.read(f_lower_train_data) |
f6d9b6b89c2a
ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff
changeset
|
36 self.raw_lower_train_labels = ft.read(f_lower_train_labels) |
f6d9b6b89c2a
ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff
changeset
|
37 #self.raw_upper_train_data = ft.read(f_upper_train_data) |
f6d9b6b89c2a
ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff
changeset
|
38 #self.raw_upper_train_labels = ft.read(f_upper_train_labels) |
f6d9b6b89c2a
ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff
changeset
|
39 |
f6d9b6b89c2a
ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff
changeset
|
40 f_digits_train_data.close() |
f6d9b6b89c2a
ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff
changeset
|
41 f_digits_train_labels.close() |
f6d9b6b89c2a
ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff
changeset
|
42 f_digits_test_data.close() |
f6d9b6b89c2a
ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff
changeset
|
43 f_digits_test_labels.close() |
f6d9b6b89c2a
ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff
changeset
|
44 |
f6d9b6b89c2a
ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff
changeset
|
45 f_lower_train_data.close() |
f6d9b6b89c2a
ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff
changeset
|
46 f_lower_train_labels.close() |
f6d9b6b89c2a
ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff
changeset
|
47 #f_upper_train_data.close() |
f6d9b6b89c2a
ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff
changeset
|
48 #f_upper_train_labels.close() |
f6d9b6b89c2a
ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff
changeset
|
49 |
f6d9b6b89c2a
ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff
changeset
|
50 def set_batches(self, start_ratio = -1, end_ratio = -1, batch_size = 20, verbose = False): |
f6d9b6b89c2a
ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff
changeset
|
51 self.batch_size = batch_size |
f6d9b6b89c2a
ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff
changeset
|
52 |
f6d9b6b89c2a
ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff
changeset
|
53 digits_train_size = len(self.raw_digits_train_labels) |
f6d9b6b89c2a
ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff
changeset
|
54 digits_test_size = len(self.raw_digits_test_labels) |
f6d9b6b89c2a
ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff
changeset
|
55 |
f6d9b6b89c2a
ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff
changeset
|
56 lower_train_size = len(self.raw_lower_train_labels) |
f6d9b6b89c2a
ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff
changeset
|
57 #upper_train_size = len(self.raw_upper_train_labels) |
f6d9b6b89c2a
ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff
changeset
|
58 |
f6d9b6b89c2a
ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff
changeset
|
59 if verbose == True: |
f6d9b6b89c2a
ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff
changeset
|
60 print 'digits_train_size = %d' %digits_train_size |
f6d9b6b89c2a
ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff
changeset
|
61 print 'digits_test_size = %d' %digits_test_size |
f6d9b6b89c2a
ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff
changeset
|
62 print 'lower_train_size = %d' %lower_train_size |
f6d9b6b89c2a
ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff
changeset
|
63 #print 'upper_train_size = %d' %upper_train_size |
f6d9b6b89c2a
ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff
changeset
|
64 |
f6d9b6b89c2a
ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff
changeset
|
65 # define main and other datasets |
f6d9b6b89c2a
ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff
changeset
|
66 raw_main_train_data = self.raw_digits_train_data |
f6d9b6b89c2a
ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff
changeset
|
67 raw_other_train_data = self.raw_lower_train_labels |
f6d9b6b89c2a
ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff
changeset
|
68 raw_test_data = self.raw_digits_test_labels |
f6d9b6b89c2a
ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff
changeset
|
69 |
f6d9b6b89c2a
ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff
changeset
|
70 raw_main_train_labels = self.raw_digits_train_labels |
f6d9b6b89c2a
ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff
changeset
|
71 raw_other_train_labels = self.raw_lower_train_labels |
f6d9b6b89c2a
ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff
changeset
|
72 raw_test_labels = self.raw_digits_test_labels |
f6d9b6b89c2a
ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff
changeset
|
73 |
f6d9b6b89c2a
ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff
changeset
|
74 main_train_size = len(raw_main_train_data) |
f6d9b6b89c2a
ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff
changeset
|
75 other_train_size = len(raw_other_train_data) |
f6d9b6b89c2a
ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff
changeset
|
76 test_size = len(raw_test_data) |
f6d9b6b89c2a
ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff
changeset
|
77 test_size = int(test_size/batch_size) |
f6d9b6b89c2a
ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff
changeset
|
78 test_size *= batch_size |
f6d9b6b89c2a
ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff
changeset
|
79 validation_size = test_size |
f6d9b6b89c2a
ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff
changeset
|
80 |
f6d9b6b89c2a
ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff
changeset
|
81 # default ratio is actual ratio |
f6d9b6b89c2a
ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff
changeset
|
82 if start_ratio == -1: |
f6d9b6b89c2a
ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff
changeset
|
83 self.start_ratio = float(main_train_size) / float(main_train_size + other_train_size) |
f6d9b6b89c2a
ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff
changeset
|
84 else: |
f6d9b6b89c2a
ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff
changeset
|
85 self.start_ratio = start_ratio |
f6d9b6b89c2a
ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff
changeset
|
86 |
f6d9b6b89c2a
ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff
changeset
|
87 if start_ratio == -1: |
f6d9b6b89c2a
ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff
changeset
|
88 self.end_ratio = float(main_train_size) / float(main_train_size + other_train_size) |
f6d9b6b89c2a
ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff
changeset
|
89 else: |
f6d9b6b89c2a
ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff
changeset
|
90 self.end_ratio = end_ratio |
f6d9b6b89c2a
ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff
changeset
|
91 |
f6d9b6b89c2a
ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff
changeset
|
92 if verbose == True: |
f6d9b6b89c2a
ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff
changeset
|
93 print 'start_ratio = %f' %self.start_ratio |
f6d9b6b89c2a
ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff
changeset
|
94 print 'end_ratio = %f' %self.end_ratio |
f6d9b6b89c2a
ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff
changeset
|
95 |
f6d9b6b89c2a
ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff
changeset
|
96 i_main = 0 |
f6d9b6b89c2a
ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff
changeset
|
97 i_other = 0 |
f6d9b6b89c2a
ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff
changeset
|
98 i_batch = 0 |
f6d9b6b89c2a
ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff
changeset
|
99 |
f6d9b6b89c2a
ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff
changeset
|
100 # compute the number of batches given start and end ratios |
f6d9b6b89c2a
ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff
changeset
|
101 n_main_batch = (main_train_size - batch_size * (self.end_ratio - self.start_ratio) / 2 ) / (batch_size * (self.start_ratio + (self.end_ratio - self.start_ratio) / 2)) |
f6d9b6b89c2a
ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff
changeset
|
102 n_other_batch = (other_train_size - batch_size * (self.end_ratio - self.start_ratio) / 2 ) / (batch_size - batch_size * (self.start_ratio + (self.end_ratio - self.start_ratio) / 2)) |
f6d9b6b89c2a
ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff
changeset
|
103 n_batches = min([n_main_batch, n_other_batch]) |
f6d9b6b89c2a
ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff
changeset
|
104 |
f6d9b6b89c2a
ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff
changeset
|
105 # train batches |
f6d9b6b89c2a
ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff
changeset
|
106 self.train_batches = [] |
f6d9b6b89c2a
ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff
changeset
|
107 |
f6d9b6b89c2a
ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff
changeset
|
108 # as long as we have data left in main and other, we create batches |
f6d9b6b89c2a
ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff
changeset
|
109 while i_main < main_train_size - batch_size - test_size and i_other < other_train_size - batch_size: |
f6d9b6b89c2a
ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff
changeset
|
110 |
f6d9b6b89c2a
ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff
changeset
|
111 ratio = self.start_ratio + i_batch * (self.end_ratio - self.start_ratio) / n_batches |
f6d9b6b89c2a
ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff
changeset
|
112 batch_data = [] |
f6d9b6b89c2a
ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff
changeset
|
113 batch_labels = [] |
f6d9b6b89c2a
ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff
changeset
|
114 |
f6d9b6b89c2a
ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff
changeset
|
115 for i in xrange(0, self.batch_size): # randomly choose between main and other, given the current ratio |
f6d9b6b89c2a
ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff
changeset
|
116 rnd = random.randint(0, 100) |
f6d9b6b89c2a
ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff
changeset
|
117 |
f6d9b6b89c2a
ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff
changeset
|
118 if rnd < 100 * ratio: |
f6d9b6b89c2a
ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff
changeset
|
119 batch_data = batch_data + \ |
f6d9b6b89c2a
ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff
changeset
|
120 [raw_main_train_data[i_main]] |
f6d9b6b89c2a
ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff
changeset
|
121 batch_labels = batch_labels + \ |
f6d9b6b89c2a
ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff
changeset
|
122 [raw_main_train_labels[i_main]] |
f6d9b6b89c2a
ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff
changeset
|
123 i_main += 1 |
f6d9b6b89c2a
ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff
changeset
|
124 else: |
f6d9b6b89c2a
ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff
changeset
|
125 batch_data = batch_data + \ |
f6d9b6b89c2a
ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff
changeset
|
126 [raw_other_train_data[i_other]] |
f6d9b6b89c2a
ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff
changeset
|
127 batch_labels = batch_labels + \ |
f6d9b6b89c2a
ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff
changeset
|
128 [raw_other_train_labels[i_other]] |
f6d9b6b89c2a
ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff
changeset
|
129 i_other += 1 |
f6d9b6b89c2a
ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff
changeset
|
130 |
f6d9b6b89c2a
ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff
changeset
|
131 self.train_batches = self.train_batches + \ |
f6d9b6b89c2a
ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff
changeset
|
132 [(batch_data,batch_labels)] |
f6d9b6b89c2a
ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff
changeset
|
133 i_batch += 1 |
f6d9b6b89c2a
ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff
changeset
|
134 |
f6d9b6b89c2a
ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff
changeset
|
135 offset = i_main |
f6d9b6b89c2a
ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff
changeset
|
136 |
f6d9b6b89c2a
ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff
changeset
|
137 if verbose == True: |
f6d9b6b89c2a
ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff
changeset
|
138 print 'n_main = %d' %i_main |
f6d9b6b89c2a
ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff
changeset
|
139 print 'n_other = %d' %i_other |
f6d9b6b89c2a
ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff
changeset
|
140 print 'nb_train_batches = %d / %d' %(i_batch,n_batches) |
f6d9b6b89c2a
ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff
changeset
|
141 print 'offset = %d' %offset |
f6d9b6b89c2a
ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff
changeset
|
142 |
f6d9b6b89c2a
ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff
changeset
|
143 # test batches |
f6d9b6b89c2a
ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff
changeset
|
144 self.test_batches = [] |
f6d9b6b89c2a
ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff
changeset
|
145 for i in xrange(0, test_size, batch_size): |
f6d9b6b89c2a
ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff
changeset
|
146 self.test_batches = self.test_batches + \ |
f6d9b6b89c2a
ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff
changeset
|
147 [(raw_test_data[i:i+batch_size], raw_test_labels[i:i+batch_size])] |
f6d9b6b89c2a
ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff
changeset
|
148 |
f6d9b6b89c2a
ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff
changeset
|
149 # validation batches |
f6d9b6b89c2a
ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff
changeset
|
150 self.validation_batches = [] |
f6d9b6b89c2a
ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff
changeset
|
151 for i in xrange(0, test_size, batch_size): |
f6d9b6b89c2a
ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff
changeset
|
152 self.validation_batches = self.validation_batches + \ |
f6d9b6b89c2a
ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff
changeset
|
153 [(raw_main_train_data[offset+i:offset+i+batch_size], raw_main_train_labels[offset+i:offset+i+batch_size])] |
f6d9b6b89c2a
ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff
changeset
|
154 |
f6d9b6b89c2a
ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff
changeset
|
155 def get_train_batches(self): |
f6d9b6b89c2a
ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff
changeset
|
156 return self.train_batches |
f6d9b6b89c2a
ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff
changeset
|
157 |
f6d9b6b89c2a
ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff
changeset
|
158 def get_test_batches(self): |
f6d9b6b89c2a
ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff
changeset
|
159 return self.test_batches |
f6d9b6b89c2a
ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff
changeset
|
160 |
f6d9b6b89c2a
ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff
changeset
|
161 def get_validation_batches(self): |
f6d9b6b89c2a
ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff
changeset
|
162 return self.validation_batches |
f6d9b6b89c2a
ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff
changeset
|
163 |
f6d9b6b89c2a
ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff
changeset
|
164 def test_set_batches(self, intervall = 1000): |
f6d9b6b89c2a
ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff
changeset
|
165 for i in xrange(0, len(self.train_batches) - self.batch_size, intervall): |
f6d9b6b89c2a
ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff
changeset
|
166 n_main = 0 |
f6d9b6b89c2a
ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff
changeset
|
167 |
f6d9b6b89c2a
ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff
changeset
|
168 for j in xrange(0, self.batch_size): |
f6d9b6b89c2a
ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff
changeset
|
169 if self.train_batches[i][1][j] < 10: |
f6d9b6b89c2a
ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff
changeset
|
170 n_main +=1 |
f6d9b6b89c2a
ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff
changeset
|
171 print 'ratio batch %d : %f' %(i,float(n_main) / float(self.batch_size)) |
f6d9b6b89c2a
ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff
changeset
|
172 |
f6d9b6b89c2a
ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff
changeset
|
173 if __name__ == '__main__': |
f6d9b6b89c2a
ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff
changeset
|
174 batches = Batches() |
f6d9b6b89c2a
ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff
changeset
|
175 batches.set_batches(0.5,1, 20, True) |
f6d9b6b89c2a
ajouté : module de préparation de batches en fonction d'un ratio de classes
Guillaume Sicard <guitch21@gmail.com>
parents:
diff
changeset
|
176 batches.test_set_batches() |