pylearn: dataset.py comparison

comparison dataset.py @ 44:5a85fda9b19b

Fixed some more iterator bugs

author	bengioy@grenat.iro.umontreal.ca
date	Mon, 28 Apr 2008 13:52:54 -0400
parents	e92244f30116
children	a5c70dc42972

comparison

equal deleted inserted replaced

-:e92244f30116
+:5a85fda9b19b
 Example field an iterable object over the individual examples in
 the minibatch).
 """
 def __init__(self, minibatch_iterator):
 self.minibatch_iterator = minibatch_iterator
+self.minibatch = None
 def __iter__(self): #makes for loop work
 return self
 def next(self):
 size1_minibatch = self.minibatch_iterator.next()
-return Example(size1_minibatch.keys(),[value[0] for value in size1_minibatch.values()])
+if not self.minibatch:
+self.minibatch = Example(size1_minibatch.keys(),[value[0] for value in size1_minibatch.values()])
+else:
+self.minibatch._values = [value[0] for value in size1_minibatch.values()]
+return self.minibatch
 def next_index(self):
 return self.minibatch_iterator.next_index()
 def __iter__(self):
 def fieldNames(self):
 return self.fieldnames
 def __iter__(self):
-class Iterator(object):
+class FieldsSubsetIterator(object):
 def __init__(self,ds):
 self.ds=ds
 self.src_iter=ds.src.__iter__()
+self.example=None
 def __iter__(self): return self
 def next(self):
-example = self.src_iter.next()
+complete_example = self.src_iter.next()
-return Example(self.ds.fieldnames,
+if self.example:
-[example[field] for field in self.ds.fieldnames])
+self.example._values=[complete_example[field]
-return Iterator(self)
+for field in self.ds.fieldnames]
+else:
+self.example=Example(self.ds.fieldnames,
+[complete_example[field] for field in self.ds.fieldnames])
+return self.example
+return FieldsSubsetIterator(self)
 def minibatches_nowrap(self,fieldnames,minibatch_size,n_batches,offset):
 assert self.hasFields(*fieldnames)
 return self.src.minibatches_nowrap(fieldnames,minibatch_size,n_batches,offset)
 def __getitem__(self,i):
 def fieldNames(self):
 return self.fieldname2dataset.keys()
 def minibatches_nowrap(self,fieldnames,minibatch_size,n_batches,offset):
-class Iterator(object):
+class HStackedIterator(object):
 def __init__(self,hsds,iterators):
 self.hsds=hsds
 self.iterators=iterators
 def __iter__(self):
 return self
 iterators=[dataset.minibatches(fields_in_dataset[dataset],minibatch_size,n_batches,offset)
 for dataset in datasets]
 else:
 datasets=self.datasets
 iterators=[dataset.minibatches(None,minibatch_size,n_batches,offset) for dataset in datasets]
-return Iterator(self,iterators)
+return HStackedIterator(self,iterators)
 def valuesVStack(self,fieldname,fieldvalues):
 return self.datasets[self.fieldname2dataset[fieldname]].valuesVStack(fieldname,fieldvalues)
 dataset_index = self.index2dataset[row]
 row_within_dataset = self.datasets_start_row[dataset_index]
 return dataset_index, row_within_dataset
 def minibatches_nowrap(self,fieldnames,minibatch_size,n_batches,offset):
-class Iterator(object):
+class VStackedIterator(object):
 def __init__(self,vsds):
 self.vsds=vsds
 self.next_row=offset
 self.next_dataset_index,self.next_dataset_row=self.vsds.locate_row(offset)
 self.current_iterator,self.n_left_at_the_end_of_ds,self.n_left_in_mb= \
 self.next_row+=minibatch_size
 self.next_dataset_row+=minibatch_size
 if self.next_row+minibatch_size>len(dataset):
 self.move_to_next_dataset()
-return
+return examples
+return VStackedIterator(self)
 class ArrayFieldsDataSet(DataSet):
 """
 Virtual super-class of datasets whose field values are numpy array,
 thus defining valuesHStack and valuesVStack for sub-classes.
 #def __getitem__(self,i):
 #    """More efficient implementation than the default"""
 def minibatches_nowrap(self,fieldnames,minibatch_size,n_batches,offset):
-class Iterator(LookupList): # store the result in the lookup-list values
+class ArrayDataSetIterator(object):
 def __init__(self,dataset,fieldnames,minibatch_size,n_batches,offset):
 if fieldnames is None: fieldnames = dataset.fieldNames()
-LookupList.__init__(self,fieldnames,[0]*len(fieldnames))
+# store the resulting minibatch in a lookup-list of values
+self.minibatch = LookupList(fieldnames,[0]*len(fieldnames))
 self.dataset=dataset
 self.minibatch_size=minibatch_size
 assert offset>=0 and offset<len(dataset.data)
 assert offset+minibatch_size<=len(dataset.data)
 self.current=offset
 def __iter__(self):
 return self
 def next(self):
 sub_data =  self.dataset.data[self.current:self.current+self.minibatch_size]
-self._values = [sub_data[:,self.dataset.fields_columns[f]] for f in self._names]
+self.minibatch._values = [sub_data[:,self.dataset.fields_columns[f]] for f in self.minibatch._names]
 self.current+=self.minibatch_size
-return self
+return self.minibatch
-return Iterator(self,fieldnames,minibatch_size,n_batches,offset)
+return ArrayDataSetIterator(self,fieldnames,minibatch_size,n_batches,offset)
 def supervised_learning_dataset(src_dataset,input_fields,target_fields,weight_field=None):
 """
 Wraps an arbitrary DataSet into one for supervised learning tasks by forcing the
 user to define a set of fields as the 'input' field and a set of fields

Mercurial > pylearn

comparison dataset.py @ 44:5a85fda9b19b