ift6266: scripts/setup_batches.py comparison

comparison scripts/setup_batches.py @ 295:a6b6b1140de9

modifié setup_batches.py pour compatibilité avec mlp_nist.py

author	Guillaume Sicard <guitch21@gmail.com>
date	Mon, 29 Mar 2010 09:18:54 -0400
parents	f6d9b6b89c2a
children	5b260cc8f477

comparison

equal deleted inserted replaced

-:8babd43235dd
+:a6b6b1140de9
 # -*- coding: utf-8 -*-
 import random
+from numpy import *
 from pylearn.io import filetensor as ft
 class Batches():
 def __init__(self):
 data_path = '/data/lisa/data/nist/by_class/'
 lower_train_data = 'lower/lower_train_data.ft'
 lower_train_labels = 'lower/lower_train_labels.ft'
 #upper_train_data = 'upper/upper_train_data.ft'
 #upper_train_labels = 'upper/upper_train_labels.ft'
+print 'Opening data...'
 f_digits_train_data = open(data_path + digits_train_data)
 f_digits_train_labels = open(data_path + digits_train_labels)
 f_digits_test_data = open(data_path + digits_test_data)
 f_digits_test_labels = open(data_path + digits_test_labels)
 f_lower_train_data.close()
 f_lower_train_labels.close()
 #f_upper_train_data.close()
 #f_upper_train_labels.close()
+print 'Data opened'
 def set_batches(self, start_ratio = -1, end_ratio = -1, batch_size = 20, verbose = False):
 self.batch_size = batch_size
 digits_train_size = len(self.raw_digits_train_labels)
 digits_test_size = len(self.raw_digits_test_labels)
 #print 'upper_train_size = %d' %upper_train_size
 # define main and other datasets
 raw_main_train_data = self.raw_digits_train_data
 raw_other_train_data = self.raw_lower_train_labels
-raw_test_data = self.raw_digits_test_labels
+raw_test_data = self.raw_digits_test_data
 raw_main_train_labels = self.raw_digits_train_labels
 raw_other_train_labels = self.raw_lower_train_labels
 raw_test_labels = self.raw_digits_test_labels
 main_train_size = len(raw_main_train_data)
 other_train_size = len(raw_other_train_data)
-test_size = len(raw_test_data)
+test_size = len(raw_test_labels)
 test_size = int(test_size/batch_size)
 test_size *= batch_size
 validation_size = test_size
 # default ratio is actual ratio
 # as long as we have data left in main and other, we create batches
 while i_main < main_train_size - batch_size - test_size  and i_other < other_train_size - batch_size:
 ratio = self.start_ratio + i_batch * (self.end_ratio - self.start_ratio) / n_batches
-batch_data = []
+batch_data = raw_main_train_data[0:self.batch_size]
-batch_labels = []
+batch_labels = raw_main_train_labels[0:self.batch_size]
 for i in xrange(0, self.batch_size): # randomly choose between main and other, given the current ratio
 	rnd = random.randint(0, 100)
 	if rnd < 100 * ratio:
-	  batch_data = batch_data + \
+	  batch_data[i] = raw_main_train_data[i_main]
-		[raw_main_train_data[i_main]]
+	  batch_labels[i] = raw_main_train_labels[i_main]
-	  batch_labels = batch_labels + \
-		[raw_main_train_labels[i_main]]
 	  i_main += 1
 	else:
-	  batch_data = batch_data + \
+	  batch_data[i] = raw_other_train_data[i_other]
-		[raw_other_train_data[i_other]]
+	  batch_labels[i] = raw_other_train_labels[i_other] - 26 #to put values between 10 and 35 for lower case
-	  batch_labels = batch_labels + \
-		[raw_other_train_labels[i_other]]
 	  i_other += 1
 self.train_batches = self.train_batches + \
-	      [(batch_data,batch_labels)]
+	      [(batch_data, batch_labels)]
 i_batch += 1
 offset = i_main
-if verbose == True:
-print 'n_main = %d' %i_main
-print 'n_other = %d' %i_other
-print 'nb_train_batches = %d / %d' %(i_batch,n_batches)
-print 'offset = %d' %offset
 # test batches
 self.test_batches = []
 for i in xrange(0, test_size, batch_size):
 self.test_batches = self.test_batches + \
 # validation batches
 self.validation_batches = []
 for i in xrange(0, test_size, batch_size):
 self.validation_batches = self.validation_batches + \
 [(raw_main_train_data[offset+i:offset+i+batch_size], raw_main_train_labels[offset+i:offset+i+batch_size])]
+if verbose == True:
+print 'n_main = %d' %i_main
+print 'n_other = %d' %i_other
+print 'nb_train_batches = %d / %d' %(i_batch,n_batches)
+print 'offset = %d' %offset
 def get_train_batches(self):
 return self.train_batches
 def get_test_batches(self):

Mercurial > ift6266

comparison scripts/setup_batches.py @ 295:a6b6b1140de9