pylearn: dataset.py annotate

annotate dataset.py @ 41:283e95c15b47

Added ArrayDataSet

author	bengioy@grenat.iro.umontreal.ca
date	Fri, 25 Apr 2008 12:04:55 -0400
parents	88fd1cce08b9
children	9b68774fcc6b

rev	line source
11 be128b9127c8 Debugged (to the extent of my tests) the new version of dataset bengioy@esprit.iro.umontreal.ca parents: 9 diff changeset	1
12 ff4e551490f1 Added LookupList type in lookup_list.py and used it to keep order bengioy@esprit.iro.umontreal.ca parents: 11 diff changeset	2 from lookup_list import LookupList
ff4e551490f1 Added LookupList type in lookup_list.py and used it to keep order bengioy@esprit.iro.umontreal.ca parents: 11 diff changeset	3 Example = LookupList
36 438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	4 from misc import *
26 672fe4b23032 Fixed dataset errors so that _test_dataset.py works again. bengioy@grenat.iro.umontreal.ca parents: 23 diff changeset	5 import copy
41 283e95c15b47 Added ArrayDataSet bengioy@grenat.iro.umontreal.ca parents: 40 diff changeset	6 import string
11 be128b9127c8 Debugged (to the extent of my tests) the new version of dataset bengioy@esprit.iro.umontreal.ca parents: 9 diff changeset	7
17 759d17112b23 more comments, looping ArrayDataSet iterator, bugfixes to lookup_list, more tests bergstrj@iro.umontreal.ca parents: 16 12 diff changeset	8 class AbstractFunction (Exception): """Derived class must override this function"""
36 438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	9 class NotImplementedYet (NotImplementedError): """Work in progress, this should eventually be implemented"""
40 88fd1cce08b9 replaced infinity for length by raise UnboundedDataSet and use & instead of + to concatenate datasets bengioy@esprit.iro.umontreal.ca parents: 39 diff changeset	10 class UnboundedDataSet (Exception): """Trying to obtain length of unbounded dataset (a stream)"""
36 438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	11
1 2cd82666b9a7 Added statscollector and started writing dataset and learner. bengioy@esprit.iro.umontreal.ca parents: 0 diff changeset	12 class DataSet(object):
16 813723310d75 commenting bergstrj@iro.umontreal.ca parents: 15 11 diff changeset	13 """A virtual base class for datasets.
813723310d75 commenting bergstrj@iro.umontreal.ca parents: 15 11 diff changeset	14
36 438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	15 A DataSet can be seen as a generalization of a matrix, meant to be used in conjunction
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	16 with learning algorithms (for training and testing them): rows/records are called examples, and
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	17 columns/attributes are called fields. The field value for a particular example can be an arbitrary
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	18 python object, which depends on the particular dataset.
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	19
40 88fd1cce08b9 replaced infinity for length by raise UnboundedDataSet and use & instead of + to concatenate datasets bengioy@esprit.iro.umontreal.ca parents: 39 diff changeset	20 We call a DataSet a 'stream' when its length is unbounded (otherwise its __len__ method
88fd1cce08b9 replaced infinity for length by raise UnboundedDataSet and use & instead of + to concatenate datasets bengioy@esprit.iro.umontreal.ca parents: 39 diff changeset	21 should raise an UnboundedDataSet exception).
36 438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	22
16 813723310d75 commenting bergstrj@iro.umontreal.ca parents: 15 11 diff changeset	23 A DataSet is a generator of iterators; these iterators can run through the
36 438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	24 examples or the fields in a variety of ways. A DataSet need not necessarily have a finite
16 813723310d75 commenting bergstrj@iro.umontreal.ca parents: 15 11 diff changeset	25 or known length, so this class can be used to interface to a 'stream' which
36 438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	26 feeds on-line learning (however, as noted below, some operations are not
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	27 feasible or not recommanded on streams).
16 813723310d75 commenting bergstrj@iro.umontreal.ca parents: 15 11 diff changeset	28
813723310d75 commenting bergstrj@iro.umontreal.ca parents: 15 11 diff changeset	29 To iterate over examples, there are several possibilities:
36 438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	30 * for example in dataset([field1, field2,field3, ...]):
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	31 * for val1,val2,val3 in dataset([field1, field2,field3]):
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	32 * for minibatch in dataset.minibatches([field1, field2, ...],minibatch_size=N):
40 88fd1cce08b9 replaced infinity for length by raise UnboundedDataSet and use & instead of + to concatenate datasets bengioy@esprit.iro.umontreal.ca parents: 39 diff changeset	33 * for mini1,mini2,mini3 in dataset.minibatches([field1, field2, ...],minibatch_size=N):
36 438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	34 * for example in dataset:
23 526e192b0699 Working on ApplyFunctionDataSet, added constraint that bengioy@esprit.iro.umontreal.ca parents: 22 diff changeset	35 Each of these is documented below. All of these iterators are expected
526e192b0699 Working on ApplyFunctionDataSet, added constraint that bengioy@esprit.iro.umontreal.ca parents: 22 diff changeset	36 to provide, in addition to the usual 'next()' method, a 'next_index()' method
526e192b0699 Working on ApplyFunctionDataSet, added constraint that bengioy@esprit.iro.umontreal.ca parents: 22 diff changeset	37 which returns a non-negative integer pointing to the position of the next
526e192b0699 Working on ApplyFunctionDataSet, added constraint that bengioy@esprit.iro.umontreal.ca parents: 22 diff changeset	38 example that will be returned by 'next()' (or of the first example in the
526e192b0699 Working on ApplyFunctionDataSet, added constraint that bengioy@esprit.iro.umontreal.ca parents: 22 diff changeset	39 next minibatch returned). This is important because these iterators
526e192b0699 Working on ApplyFunctionDataSet, added constraint that bengioy@esprit.iro.umontreal.ca parents: 22 diff changeset	40 can wrap around the dataset in order to do multiple passes through it,
526e192b0699 Working on ApplyFunctionDataSet, added constraint that bengioy@esprit.iro.umontreal.ca parents: 22 diff changeset	41 in possibly unregular ways if the minibatch size is not a divisor of the
526e192b0699 Working on ApplyFunctionDataSet, added constraint that bengioy@esprit.iro.umontreal.ca parents: 22 diff changeset	42 dataset length.
36 438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	43
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	44 To iterate over fields, one can do
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	45 * for fields in dataset.fields()
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	46 * for fields in dataset(field1,field2,...).fields() to select a subset of fields
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	47 * for fields in dataset.fields(field1,field2,...) to select a subset of fields
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	48 and each of these fields is iterable over the examples:
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	49 * for field_examples in dataset.fields():
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	50 for example_value in field_examples:
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	51 ...
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	52 but when the dataset is a stream (unbounded length), it is not recommanded to do
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	53 such things because the underlying dataset may refuse to access the different fields in
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	54 an unsynchronized ways. Hence the fields() method is illegal for streams, by default.
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	55 The result of fields() is a DataSetFields object, which iterates over fields,
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	56 and whose elements are iterable over examples. A DataSetFields object can
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	57 be turned back into a DataSet with its examples() method:
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	58 dataset2 = dataset1.fields().examples()
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	59 and dataset2 should behave exactly like dataset1 (in fact by default dataset2==dataset1).
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	60
16 813723310d75 commenting bergstrj@iro.umontreal.ca parents: 15 11 diff changeset	61 Note: Fields are not mutually exclusive, i.e. two fields can overlap in their actual content.
813723310d75 commenting bergstrj@iro.umontreal.ca parents: 15 11 diff changeset	62
36 438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	63 Note: The content of a field can be of any type. Field values can also be 'missing'
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	64 (e.g. to handle semi-supervised learning), and in the case of numeric (numpy array)
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	65 fields (i.e. an ArrayFieldsDataSet), NaN plays the role of a missing value.
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	66
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	67 Dataset elements can be indexed and sub-datasets (with a subset
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	68 of examples) can be extracted. These operations are not supported
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	69 by default in the case of streams.
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	70
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	71 * dataset[:n] returns a dataset with the n first examples.
16 813723310d75 commenting bergstrj@iro.umontreal.ca parents: 15 11 diff changeset	72
36 438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	73 * dataset[i1:i2:s] returns a dataset with the examples i1,i1+s,...i2-s.
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	74
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	75 * dataset[i] returns an Example.
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	76
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	77 * dataset[[i1,i2,...in]] returns a dataset with examples i1,i2,...in.
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	78
41 283e95c15b47 Added ArrayDataSet bengioy@grenat.iro.umontreal.ca parents: 40 diff changeset	79 * dataset['key'] returns a property associated with the given 'key' string.
283e95c15b47 Added ArrayDataSet bengioy@grenat.iro.umontreal.ca parents: 40 diff changeset	80 If 'key' is a fieldname, then the VStacked field values (iterable over
283e95c15b47 Added ArrayDataSet bengioy@grenat.iro.umontreal.ca parents: 40 diff changeset	81 field values) for that field is returned. Other keys may be supported
283e95c15b47 Added ArrayDataSet bengioy@grenat.iro.umontreal.ca parents: 40 diff changeset	82 by different dataset subclasses. The following key names are should be supported:
283e95c15b47 Added ArrayDataSet bengioy@grenat.iro.umontreal.ca parents: 40 diff changeset	83 - 'description': a textual description or name for the dataset
283e95c15b47 Added ArrayDataSet bengioy@grenat.iro.umontreal.ca parents: 40 diff changeset	84 - '<fieldname>.type': a type name or value for a given <fieldname>
283e95c15b47 Added ArrayDataSet bengioy@grenat.iro.umontreal.ca parents: 40 diff changeset	85
36 438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	86 Datasets can be concatenated either vertically (increasing the length) or
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	87 horizontally (augmenting the set of fields), if they are compatible, using
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	88 the following operations (with the same basic semantics as numpy.hstack
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	89 and numpy.vstack):
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	90
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	91 * dataset1 \| dataset2 \| dataset3 == dataset.hstack([dataset1,dataset2,dataset3])
22 b6b36f65664f Created virtual sub-classes of DataSet: {Finite{Length,Width},Sliceable}DataSet, bengioy@esprit.iro.umontreal.ca parents: 20 diff changeset	92
36 438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	93 creates a new dataset whose list of fields is the concatenation of the list of
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	94 fields of the argument datasets. This only works if they all have the same length.
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	95
40 88fd1cce08b9 replaced infinity for length by raise UnboundedDataSet and use & instead of + to concatenate datasets bengioy@esprit.iro.umontreal.ca parents: 39 diff changeset	96 * dataset1 & dataset2 & dataset3 == dataset.vstack([dataset1,dataset2,dataset3])
36 438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	97
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	98 creates a new dataset that concatenates the examples from the argument datasets
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	99 (and whose length is the sum of the length of the argument datasets). This only
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	100 works if they all have the same fields.
22 b6b36f65664f Created virtual sub-classes of DataSet: {Finite{Length,Width},Sliceable}DataSet, bengioy@esprit.iro.umontreal.ca parents: 20 diff changeset	101
36 438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	102 According to the same logic, and viewing a DataSetFields object associated to
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	103 a DataSet as a kind of transpose of it, fields1 + fields2 concatenates fields of
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	104 a DataSetFields fields1 and fields2, and fields1 \| fields2 concatenates their
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	105 examples.
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	106
41 283e95c15b47 Added ArrayDataSet bengioy@grenat.iro.umontreal.ca parents: 40 diff changeset	107 A dataset can hold arbitrary key-value pairs that may be used to access meta-data
283e95c15b47 Added ArrayDataSet bengioy@grenat.iro.umontreal.ca parents: 40 diff changeset	108 or other properties of the dataset or associated with the dataset or the result
283e95c15b47 Added ArrayDataSet bengioy@grenat.iro.umontreal.ca parents: 40 diff changeset	109 of a computation stored in a dataset. These can be accessed through the [key] syntax
283e95c15b47 Added ArrayDataSet bengioy@grenat.iro.umontreal.ca parents: 40 diff changeset	110 when key is a string (or more specifically, neither an integer, a slice, nor a list).
283e95c15b47 Added ArrayDataSet bengioy@grenat.iro.umontreal.ca parents: 40 diff changeset	111
36 438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	112 A DataSet sub-class should always redefine the following methods:
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	113 * __len__ if it is not a stream
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	114 * fieldNames
37 73c4212ba5b3 Factored the minibatch-writing code into an iterator class inside DataSet bengioy@esprit.iro.umontreal.ca parents: 36 diff changeset	115 * minibatches_nowrap (called by DataSet.minibatches())
36 438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	116 * valuesHStack
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	117 * valuesVStack
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	118 For efficiency of implementation, a sub-class might also want to redefine
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	119 * hasFields
40 88fd1cce08b9 replaced infinity for length by raise UnboundedDataSet and use & instead of + to concatenate datasets bengioy@esprit.iro.umontreal.ca parents: 39 diff changeset	120 * __getitem__ may not be feasible with some streams
88fd1cce08b9 replaced infinity for length by raise UnboundedDataSet and use & instead of + to concatenate datasets bengioy@esprit.iro.umontreal.ca parents: 39 diff changeset	121 * __iter__
2 3fddb1c8f955 Rewrote DataSet interface and created FiniteDataSet interface. bengioy@bengiomac.local parents: 1 diff changeset	122 """
1 2cd82666b9a7 Added statscollector and started writing dataset and learner. bengioy@esprit.iro.umontreal.ca parents: 0 diff changeset	123
41 283e95c15b47 Added ArrayDataSet bengioy@grenat.iro.umontreal.ca parents: 40 diff changeset	124 def __init__(self,description=None,field_types=None):
283e95c15b47 Added ArrayDataSet bengioy@grenat.iro.umontreal.ca parents: 40 diff changeset	125 if description is None:
283e95c15b47 Added ArrayDataSet bengioy@grenat.iro.umontreal.ca parents: 40 diff changeset	126 # by default return "<DataSetType>(<SuperClass1>,<SuperClass2>,...)"
283e95c15b47 Added ArrayDataSet bengioy@grenat.iro.umontreal.ca parents: 40 diff changeset	127 description = type(self).__name__ + " ( " + string.join([x.__name__ for x in type(self).__bases__]) + " )"
283e95c15b47 Added ArrayDataSet bengioy@grenat.iro.umontreal.ca parents: 40 diff changeset	128 self.description=description
283e95c15b47 Added ArrayDataSet bengioy@grenat.iro.umontreal.ca parents: 40 diff changeset	129 self.field_types=field_types
11 be128b9127c8 Debugged (to the extent of my tests) the new version of dataset bengioy@esprit.iro.umontreal.ca parents: 9 diff changeset	130
36 438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	131 class MinibatchToSingleExampleIterator(object):
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	132 """
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	133 Converts the result of minibatch iterator with minibatch_size==1 into
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	134 single-example values in the result. Therefore the result of
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	135 iterating on the dataset itself gives a sequence of single examples
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	136 (whereas the result of iterating over minibatches gives in each
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	137 Example field an iterable object over the individual examples in
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	138 the minibatch).
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	139 """
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	140 def __init__(self, minibatch_iterator):
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	141 self.minibatch_iterator = minibatch_iterator
22 b6b36f65664f Created virtual sub-classes of DataSet: {Finite{Length,Width},Sliceable}DataSet, bengioy@esprit.iro.umontreal.ca parents: 20 diff changeset	142 def __iter__(self): #makes for loop work
b6b36f65664f Created virtual sub-classes of DataSet: {Finite{Length,Width},Sliceable}DataSet, bengioy@esprit.iro.umontreal.ca parents: 20 diff changeset	143 return self
b6b36f65664f Created virtual sub-classes of DataSet: {Finite{Length,Width},Sliceable}DataSet, bengioy@esprit.iro.umontreal.ca parents: 20 diff changeset	144 def next(self):
40 88fd1cce08b9 replaced infinity for length by raise UnboundedDataSet and use & instead of + to concatenate datasets bengioy@esprit.iro.umontreal.ca parents: 39 diff changeset	145 size1_minibatch = self.minibatch_iterator.next()
88fd1cce08b9 replaced infinity for length by raise UnboundedDataSet and use & instead of + to concatenate datasets bengioy@esprit.iro.umontreal.ca parents: 39 diff changeset	146 return Example(size1_minibatch.keys,[value[0] for value in size1_minibatch.values()])
88fd1cce08b9 replaced infinity for length by raise UnboundedDataSet and use & instead of + to concatenate datasets bengioy@esprit.iro.umontreal.ca parents: 39 diff changeset	147
23 526e192b0699 Working on ApplyFunctionDataSet, added constraint that bengioy@esprit.iro.umontreal.ca parents: 22 diff changeset	148 def next_index(self):
36 438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	149 return self.minibatch_iterator.next_index()
22 b6b36f65664f Created virtual sub-classes of DataSet: {Finite{Length,Width},Sliceable}DataSet, bengioy@esprit.iro.umontreal.ca parents: 20 diff changeset	150
3 378b68d5c4ad Added first (untested) version of ArrayDataSet bengioy@bengiomac.local parents: 2 diff changeset	151 def __iter__(self):
16 813723310d75 commenting bergstrj@iro.umontreal.ca parents: 15 11 diff changeset	152 """Supports the syntax "for i in dataset: ..."
1 2cd82666b9a7 Added statscollector and started writing dataset and learner. bengioy@esprit.iro.umontreal.ca parents: 0 diff changeset	153
16 813723310d75 commenting bergstrj@iro.umontreal.ca parents: 15 11 diff changeset	154 Using this syntax, "i" will be an Example instance (or equivalent) with
813723310d75 commenting bergstrj@iro.umontreal.ca parents: 15 11 diff changeset	155 all the fields of DataSet self. Every field of "i" will give access to
20 266c68cb6136 Minor editions, plus adding untested ApplyFunctionDataset for GradientLearner in the works. bengioy@bengiomac.local parents: 19 diff changeset	156 a field of a single example. Fields should be accessible via
22 b6b36f65664f Created virtual sub-classes of DataSet: {Finite{Length,Width},Sliceable}DataSet, bengioy@esprit.iro.umontreal.ca parents: 20 diff changeset	157 i["fielname"] or i[3] (in the order defined by the elements of the
b6b36f65664f Created virtual sub-classes of DataSet: {Finite{Length,Width},Sliceable}DataSet, bengioy@esprit.iro.umontreal.ca parents: 20 diff changeset	158 Example returned by this iterator), but the derived class is free
20 266c68cb6136 Minor editions, plus adding untested ApplyFunctionDataset for GradientLearner in the works. bengioy@bengiomac.local parents: 19 diff changeset	159 to accept any type of identifier, and add extra functionality to the iterator.
16 813723310d75 commenting bergstrj@iro.umontreal.ca parents: 15 11 diff changeset	160
36 438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	161 The default implementation calls the minibatches iterator and extracts the first example of each field.
11 be128b9127c8 Debugged (to the extent of my tests) the new version of dataset bengioy@esprit.iro.umontreal.ca parents: 9 diff changeset	162 """
36 438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	163 return DataSet.MinibatchToSingleExampleIterator(self.minibatches(None, minibatch_size = 1))
2 3fddb1c8f955 Rewrote DataSet interface and created FiniteDataSet interface. bengioy@bengiomac.local parents: 1 diff changeset	164
37 73c4212ba5b3 Factored the minibatch-writing code into an iterator class inside DataSet bengioy@esprit.iro.umontreal.ca parents: 36 diff changeset	165
73c4212ba5b3 Factored the minibatch-writing code into an iterator class inside DataSet bengioy@esprit.iro.umontreal.ca parents: 36 diff changeset	166 class MinibatchWrapAroundIterator(object):
73c4212ba5b3 Factored the minibatch-writing code into an iterator class inside DataSet bengioy@esprit.iro.umontreal.ca parents: 36 diff changeset	167 """
73c4212ba5b3 Factored the minibatch-writing code into an iterator class inside DataSet bengioy@esprit.iro.umontreal.ca parents: 36 diff changeset	168 An iterator for minibatches that handles the case where we need to wrap around the
73c4212ba5b3 Factored the minibatch-writing code into an iterator class inside DataSet bengioy@esprit.iro.umontreal.ca parents: 36 diff changeset	169 dataset because n_batches*minibatch_size > len(dataset). It is constructed from
73c4212ba5b3 Factored the minibatch-writing code into an iterator class inside DataSet bengioy@esprit.iro.umontreal.ca parents: 36 diff changeset	170 a dataset that provides a minibatch iterator that does not need to handle that problem.
73c4212ba5b3 Factored the minibatch-writing code into an iterator class inside DataSet bengioy@esprit.iro.umontreal.ca parents: 36 diff changeset	171 This class is a utility for dataset subclass writers, so that they do not have to handle
38 d637ad8f7352 Finished first untested version of VStackedDataset bengioy@esprit.iro.umontreal.ca parents: 37 diff changeset	172 this issue multiple times, nor check that fieldnames are valid, nor handle the
d637ad8f7352 Finished first untested version of VStackedDataset bengioy@esprit.iro.umontreal.ca parents: 37 diff changeset	173 empty fieldnames (meaning 'use all the fields').
37 73c4212ba5b3 Factored the minibatch-writing code into an iterator class inside DataSet bengioy@esprit.iro.umontreal.ca parents: 36 diff changeset	174 """
73c4212ba5b3 Factored the minibatch-writing code into an iterator class inside DataSet bengioy@esprit.iro.umontreal.ca parents: 36 diff changeset	175 def __init__(self,dataset,fieldnames,minibatch_size,n_batches,offset):
73c4212ba5b3 Factored the minibatch-writing code into an iterator class inside DataSet bengioy@esprit.iro.umontreal.ca parents: 36 diff changeset	176 self.dataset=dataset
73c4212ba5b3 Factored the minibatch-writing code into an iterator class inside DataSet bengioy@esprit.iro.umontreal.ca parents: 36 diff changeset	177 self.fieldnames=fieldnames
73c4212ba5b3 Factored the minibatch-writing code into an iterator class inside DataSet bengioy@esprit.iro.umontreal.ca parents: 36 diff changeset	178 self.minibatch_size=minibatch_size
73c4212ba5b3 Factored the minibatch-writing code into an iterator class inside DataSet bengioy@esprit.iro.umontreal.ca parents: 36 diff changeset	179 self.n_batches=n_batches
73c4212ba5b3 Factored the minibatch-writing code into an iterator class inside DataSet bengioy@esprit.iro.umontreal.ca parents: 36 diff changeset	180 self.n_batches_done=0
73c4212ba5b3 Factored the minibatch-writing code into an iterator class inside DataSet bengioy@esprit.iro.umontreal.ca parents: 36 diff changeset	181 self.next_row=offset
73c4212ba5b3 Factored the minibatch-writing code into an iterator class inside DataSet bengioy@esprit.iro.umontreal.ca parents: 36 diff changeset	182 self.L=len(dataset)
73c4212ba5b3 Factored the minibatch-writing code into an iterator class inside DataSet bengioy@esprit.iro.umontreal.ca parents: 36 diff changeset	183 assert offset+minibatch_size<=self.L
73c4212ba5b3 Factored the minibatch-writing code into an iterator class inside DataSet bengioy@esprit.iro.umontreal.ca parents: 36 diff changeset	184 ds_nbatches = (self.L-offset)/minibatch_size
73c4212ba5b3 Factored the minibatch-writing code into an iterator class inside DataSet bengioy@esprit.iro.umontreal.ca parents: 36 diff changeset	185 if n_batches is not None:
73c4212ba5b3 Factored the minibatch-writing code into an iterator class inside DataSet bengioy@esprit.iro.umontreal.ca parents: 36 diff changeset	186 ds_nbatches = max(n_batches,ds_nbatches)
38 d637ad8f7352 Finished first untested version of VStackedDataset bengioy@esprit.iro.umontreal.ca parents: 37 diff changeset	187 if fieldnames:
d637ad8f7352 Finished first untested version of VStackedDataset bengioy@esprit.iro.umontreal.ca parents: 37 diff changeset	188 assert dataset.hasFields(*fieldnames)
d637ad8f7352 Finished first untested version of VStackedDataset bengioy@esprit.iro.umontreal.ca parents: 37 diff changeset	189 else:
d637ad8f7352 Finished first untested version of VStackedDataset bengioy@esprit.iro.umontreal.ca parents: 37 diff changeset	190 fieldnames=dataset.fieldNames()
37 73c4212ba5b3 Factored the minibatch-writing code into an iterator class inside DataSet bengioy@esprit.iro.umontreal.ca parents: 36 diff changeset	191 self.iterator = dataset.minibatches_nowrap(fieldnames,minibatch_size,ds_nbatches,offset)
73c4212ba5b3 Factored the minibatch-writing code into an iterator class inside DataSet bengioy@esprit.iro.umontreal.ca parents: 36 diff changeset	192
73c4212ba5b3 Factored the minibatch-writing code into an iterator class inside DataSet bengioy@esprit.iro.umontreal.ca parents: 36 diff changeset	193 def __iter__(self):
73c4212ba5b3 Factored the minibatch-writing code into an iterator class inside DataSet bengioy@esprit.iro.umontreal.ca parents: 36 diff changeset	194 return self
73c4212ba5b3 Factored the minibatch-writing code into an iterator class inside DataSet bengioy@esprit.iro.umontreal.ca parents: 36 diff changeset	195
73c4212ba5b3 Factored the minibatch-writing code into an iterator class inside DataSet bengioy@esprit.iro.umontreal.ca parents: 36 diff changeset	196 def next_index(self):
73c4212ba5b3 Factored the minibatch-writing code into an iterator class inside DataSet bengioy@esprit.iro.umontreal.ca parents: 36 diff changeset	197 return self.next_row
73c4212ba5b3 Factored the minibatch-writing code into an iterator class inside DataSet bengioy@esprit.iro.umontreal.ca parents: 36 diff changeset	198
73c4212ba5b3 Factored the minibatch-writing code into an iterator class inside DataSet bengioy@esprit.iro.umontreal.ca parents: 36 diff changeset	199 def next(self):
73c4212ba5b3 Factored the minibatch-writing code into an iterator class inside DataSet bengioy@esprit.iro.umontreal.ca parents: 36 diff changeset	200 if self.n_batches and self.n_batches_done==self.n_batches:
73c4212ba5b3 Factored the minibatch-writing code into an iterator class inside DataSet bengioy@esprit.iro.umontreal.ca parents: 36 diff changeset	201 raise StopIteration
73c4212ba5b3 Factored the minibatch-writing code into an iterator class inside DataSet bengioy@esprit.iro.umontreal.ca parents: 36 diff changeset	202 upper = self.next_row+minibatch_size
73c4212ba5b3 Factored the minibatch-writing code into an iterator class inside DataSet bengioy@esprit.iro.umontreal.ca parents: 36 diff changeset	203 if upper <=self.L:
73c4212ba5b3 Factored the minibatch-writing code into an iterator class inside DataSet bengioy@esprit.iro.umontreal.ca parents: 36 diff changeset	204 minibatch = self.minibatch_iterator.next()
73c4212ba5b3 Factored the minibatch-writing code into an iterator class inside DataSet bengioy@esprit.iro.umontreal.ca parents: 36 diff changeset	205 else:
73c4212ba5b3 Factored the minibatch-writing code into an iterator class inside DataSet bengioy@esprit.iro.umontreal.ca parents: 36 diff changeset	206 if not self.n_batches:
73c4212ba5b3 Factored the minibatch-writing code into an iterator class inside DataSet bengioy@esprit.iro.umontreal.ca parents: 36 diff changeset	207 raise StopIteration
73c4212ba5b3 Factored the minibatch-writing code into an iterator class inside DataSet bengioy@esprit.iro.umontreal.ca parents: 36 diff changeset	208 # we must concatenate (vstack) the bottom and top parts of our minibatch
73c4212ba5b3 Factored the minibatch-writing code into an iterator class inside DataSet bengioy@esprit.iro.umontreal.ca parents: 36 diff changeset	209 # first get the beginning of our minibatch (top of dataset)
73c4212ba5b3 Factored the minibatch-writing code into an iterator class inside DataSet bengioy@esprit.iro.umontreal.ca parents: 36 diff changeset	210 first_part = self.dataset.minibatches_nowrap(fieldnames,self.L-self.next_row,1,self.next_row).next()
73c4212ba5b3 Factored the minibatch-writing code into an iterator class inside DataSet bengioy@esprit.iro.umontreal.ca parents: 36 diff changeset	211 second_part = self.dataset.minibatches_nowrap(fieldnames,upper-self.L,1,0).next()
73c4212ba5b3 Factored the minibatch-writing code into an iterator class inside DataSet bengioy@esprit.iro.umontreal.ca parents: 36 diff changeset	212 minibatch = Example(self.fieldnames,
73c4212ba5b3 Factored the minibatch-writing code into an iterator class inside DataSet bengioy@esprit.iro.umontreal.ca parents: 36 diff changeset	213 [self.dataset.valuesVStack(name,[first_part[name],second_part[name]])
73c4212ba5b3 Factored the minibatch-writing code into an iterator class inside DataSet bengioy@esprit.iro.umontreal.ca parents: 36 diff changeset	214 for name in self.fieldnames])
73c4212ba5b3 Factored the minibatch-writing code into an iterator class inside DataSet bengioy@esprit.iro.umontreal.ca parents: 36 diff changeset	215 self.next_row=upper
73c4212ba5b3 Factored the minibatch-writing code into an iterator class inside DataSet bengioy@esprit.iro.umontreal.ca parents: 36 diff changeset	216 self.n_batches_done+=1
73c4212ba5b3 Factored the minibatch-writing code into an iterator class inside DataSet bengioy@esprit.iro.umontreal.ca parents: 36 diff changeset	217 if upper >= L:
73c4212ba5b3 Factored the minibatch-writing code into an iterator class inside DataSet bengioy@esprit.iro.umontreal.ca parents: 36 diff changeset	218 self.next_row -= L
73c4212ba5b3 Factored the minibatch-writing code into an iterator class inside DataSet bengioy@esprit.iro.umontreal.ca parents: 36 diff changeset	219 return minibatch
73c4212ba5b3 Factored the minibatch-writing code into an iterator class inside DataSet bengioy@esprit.iro.umontreal.ca parents: 36 diff changeset	220
73c4212ba5b3 Factored the minibatch-writing code into an iterator class inside DataSet bengioy@esprit.iro.umontreal.ca parents: 36 diff changeset	221
17 759d17112b23 more comments, looping ArrayDataSet iterator, bugfixes to lookup_list, more tests bergstrj@iro.umontreal.ca parents: 16 12 diff changeset	222 minibatches_fieldnames = None
759d17112b23 more comments, looping ArrayDataSet iterator, bugfixes to lookup_list, more tests bergstrj@iro.umontreal.ca parents: 16 12 diff changeset	223 minibatches_minibatch_size = 1
759d17112b23 more comments, looping ArrayDataSet iterator, bugfixes to lookup_list, more tests bergstrj@iro.umontreal.ca parents: 16 12 diff changeset	224 minibatches_n_batches = None
759d17112b23 more comments, looping ArrayDataSet iterator, bugfixes to lookup_list, more tests bergstrj@iro.umontreal.ca parents: 16 12 diff changeset	225 def minibatches(self,
37 73c4212ba5b3 Factored the minibatch-writing code into an iterator class inside DataSet bengioy@esprit.iro.umontreal.ca parents: 36 diff changeset	226 fieldnames = minibatches_fieldnames,
73c4212ba5b3 Factored the minibatch-writing code into an iterator class inside DataSet bengioy@esprit.iro.umontreal.ca parents: 36 diff changeset	227 minibatch_size = minibatches_minibatch_size,
73c4212ba5b3 Factored the minibatch-writing code into an iterator class inside DataSet bengioy@esprit.iro.umontreal.ca parents: 36 diff changeset	228 n_batches = minibatches_n_batches,
73c4212ba5b3 Factored the minibatch-writing code into an iterator class inside DataSet bengioy@esprit.iro.umontreal.ca parents: 36 diff changeset	229 offset = 0):
6 d5738b79089a Removed MinibatchIterator and instead made minibatch_size a field of all DataSets, bengioy@bengiomac.local parents: 5 diff changeset	230 """
36 438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	231 Return an iterator that supports three forms of syntax:
22 b6b36f65664f Created virtual sub-classes of DataSet: {Finite{Length,Width},Sliceable}DataSet, bengioy@esprit.iro.umontreal.ca parents: 20 diff changeset	232
b6b36f65664f Created virtual sub-classes of DataSet: {Finite{Length,Width},Sliceable}DataSet, bengioy@esprit.iro.umontreal.ca parents: 20 diff changeset	233 for i in dataset.minibatches(None,**kwargs): ...
16 813723310d75 commenting bergstrj@iro.umontreal.ca parents: 15 11 diff changeset	234
17 759d17112b23 more comments, looping ArrayDataSet iterator, bugfixes to lookup_list, more tests bergstrj@iro.umontreal.ca parents: 16 12 diff changeset	235 for i in dataset.minibatches([f1, f2, f3],**kwargs): ...
16 813723310d75 commenting bergstrj@iro.umontreal.ca parents: 15 11 diff changeset	236
17 759d17112b23 more comments, looping ArrayDataSet iterator, bugfixes to lookup_list, more tests bergstrj@iro.umontreal.ca parents: 16 12 diff changeset	237 for i1, i2, i3 in dataset.minibatches([f1, f2, f3],**kwargs): ...
16 813723310d75 commenting bergstrj@iro.umontreal.ca parents: 15 11 diff changeset	238
22 b6b36f65664f Created virtual sub-classes of DataSet: {Finite{Length,Width},Sliceable}DataSet, bengioy@esprit.iro.umontreal.ca parents: 20 diff changeset	239 Using the first two syntaxes, "i" will be an indexable object, such as a list,
b6b36f65664f Created virtual sub-classes of DataSet: {Finite{Length,Width},Sliceable}DataSet, bengioy@esprit.iro.umontreal.ca parents: 20 diff changeset	240 tuple, or Example instance. In both cases, i[k] is a list-like container
b6b36f65664f Created virtual sub-classes of DataSet: {Finite{Length,Width},Sliceable}DataSet, bengioy@esprit.iro.umontreal.ca parents: 20 diff changeset	241 of a batch of current examples. In the second case, i[0] is
17 759d17112b23 more comments, looping ArrayDataSet iterator, bugfixes to lookup_list, more tests bergstrj@iro.umontreal.ca parents: 16 12 diff changeset	242 list-like container of the f1 field of a batch current examples, i[1] is
759d17112b23 more comments, looping ArrayDataSet iterator, bugfixes to lookup_list, more tests bergstrj@iro.umontreal.ca parents: 16 12 diff changeset	243 a list-like container of the f2 field, etc.
2 3fddb1c8f955 Rewrote DataSet interface and created FiniteDataSet interface. bengioy@bengiomac.local parents: 1 diff changeset	244
22 b6b36f65664f Created virtual sub-classes of DataSet: {Finite{Length,Width},Sliceable}DataSet, bengioy@esprit.iro.umontreal.ca parents: 20 diff changeset	245 Using the first syntax, all the fields will be returned in "i".
b6b36f65664f Created virtual sub-classes of DataSet: {Finite{Length,Width},Sliceable}DataSet, bengioy@esprit.iro.umontreal.ca parents: 20 diff changeset	246 Using the third syntax, i1, i2, i3 will be list-like containers of the
17 759d17112b23 more comments, looping ArrayDataSet iterator, bugfixes to lookup_list, more tests bergstrj@iro.umontreal.ca parents: 16 12 diff changeset	247 f1, f2, and f3 fields of a batch of examples on each loop iteration.
11 be128b9127c8 Debugged (to the extent of my tests) the new version of dataset bengioy@esprit.iro.umontreal.ca parents: 9 diff changeset	248
36 438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	249 The minibatches iterator is expected to return upon each call to next()
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	250 a DataSetFields object, which is a LookupList (indexed by the field names) whose
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	251 elements are iterable over the minibatch examples, and which keeps a pointer to
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	252 a sub-dataset that can be used to iterate over the individual examples
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	253 in the minibatch. Hence a minibatch can be converted back to a regular
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	254 dataset or its fields can be looked at individually (and possibly iterated over).
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	255
17 759d17112b23 more comments, looping ArrayDataSet iterator, bugfixes to lookup_list, more tests bergstrj@iro.umontreal.ca parents: 16 12 diff changeset	256 PARAMETERS
759d17112b23 more comments, looping ArrayDataSet iterator, bugfixes to lookup_list, more tests bergstrj@iro.umontreal.ca parents: 16 12 diff changeset	257 - fieldnames (list of any type, default None):
759d17112b23 more comments, looping ArrayDataSet iterator, bugfixes to lookup_list, more tests bergstrj@iro.umontreal.ca parents: 16 12 diff changeset	258 The loop variables i1, i2, i3 (in the example above) should contain the
759d17112b23 more comments, looping ArrayDataSet iterator, bugfixes to lookup_list, more tests bergstrj@iro.umontreal.ca parents: 16 12 diff changeset	259 f1, f2, and f3 fields of the current batch of examples. If None, the
759d17112b23 more comments, looping ArrayDataSet iterator, bugfixes to lookup_list, more tests bergstrj@iro.umontreal.ca parents: 16 12 diff changeset	260 derived class can choose a default, e.g. all fields.
16 813723310d75 commenting bergstrj@iro.umontreal.ca parents: 15 11 diff changeset	261
17 759d17112b23 more comments, looping ArrayDataSet iterator, bugfixes to lookup_list, more tests bergstrj@iro.umontreal.ca parents: 16 12 diff changeset	262 - minibatch_size (integer, default 1)
759d17112b23 more comments, looping ArrayDataSet iterator, bugfixes to lookup_list, more tests bergstrj@iro.umontreal.ca parents: 16 12 diff changeset	263 On every iteration, the variables i1, i2, i3 will have
759d17112b23 more comments, looping ArrayDataSet iterator, bugfixes to lookup_list, more tests bergstrj@iro.umontreal.ca parents: 16 12 diff changeset	264 exactly minibatch_size elements. e.g. len(i1) == minibatch_size
759d17112b23 more comments, looping ArrayDataSet iterator, bugfixes to lookup_list, more tests bergstrj@iro.umontreal.ca parents: 16 12 diff changeset	265
759d17112b23 more comments, looping ArrayDataSet iterator, bugfixes to lookup_list, more tests bergstrj@iro.umontreal.ca parents: 16 12 diff changeset	266 - n_batches (integer, default None)
759d17112b23 more comments, looping ArrayDataSet iterator, bugfixes to lookup_list, more tests bergstrj@iro.umontreal.ca parents: 16 12 diff changeset	267 The iterator will loop exactly this many times, and then stop. If None,
759d17112b23 more comments, looping ArrayDataSet iterator, bugfixes to lookup_list, more tests bergstrj@iro.umontreal.ca parents: 16 12 diff changeset	268 the derived class can choose a default. If (-1), then the returned
759d17112b23 more comments, looping ArrayDataSet iterator, bugfixes to lookup_list, more tests bergstrj@iro.umontreal.ca parents: 16 12 diff changeset	269 iterator should support looping indefinitely.
759d17112b23 more comments, looping ArrayDataSet iterator, bugfixes to lookup_list, more tests bergstrj@iro.umontreal.ca parents: 16 12 diff changeset	270
37 73c4212ba5b3 Factored the minibatch-writing code into an iterator class inside DataSet bengioy@esprit.iro.umontreal.ca parents: 36 diff changeset	271 - offset (integer, default 0)
73c4212ba5b3 Factored the minibatch-writing code into an iterator class inside DataSet bengioy@esprit.iro.umontreal.ca parents: 36 diff changeset	272 The iterator will start at example 'offset' in the dataset, rather than the default.
73c4212ba5b3 Factored the minibatch-writing code into an iterator class inside DataSet bengioy@esprit.iro.umontreal.ca parents: 36 diff changeset	273
17 759d17112b23 more comments, looping ArrayDataSet iterator, bugfixes to lookup_list, more tests bergstrj@iro.umontreal.ca parents: 16 12 diff changeset	274 Note: A list-like container is something like a tuple, list, numpy.ndarray or
759d17112b23 more comments, looping ArrayDataSet iterator, bugfixes to lookup_list, more tests bergstrj@iro.umontreal.ca parents: 16 12 diff changeset	275 any other object that supports integer indexing and slicing.
759d17112b23 more comments, looping ArrayDataSet iterator, bugfixes to lookup_list, more tests bergstrj@iro.umontreal.ca parents: 16 12 diff changeset	276
11 be128b9127c8 Debugged (to the extent of my tests) the new version of dataset bengioy@esprit.iro.umontreal.ca parents: 9 diff changeset	277 """
37 73c4212ba5b3 Factored the minibatch-writing code into an iterator class inside DataSet bengioy@esprit.iro.umontreal.ca parents: 36 diff changeset	278 return MinibatchWrapAroundIterator(self,fieldnames,minibatch_size,n_batches,offset)
73c4212ba5b3 Factored the minibatch-writing code into an iterator class inside DataSet bengioy@esprit.iro.umontreal.ca parents: 36 diff changeset	279
73c4212ba5b3 Factored the minibatch-writing code into an iterator class inside DataSet bengioy@esprit.iro.umontreal.ca parents: 36 diff changeset	280 def minibatches_nowrap(self,fieldnames,minibatch_size,n_batches,offset):
73c4212ba5b3 Factored the minibatch-writing code into an iterator class inside DataSet bengioy@esprit.iro.umontreal.ca parents: 36 diff changeset	281 """
73c4212ba5b3 Factored the minibatch-writing code into an iterator class inside DataSet bengioy@esprit.iro.umontreal.ca parents: 36 diff changeset	282 This is the minibatches iterator generator that sub-classes must define.
73c4212ba5b3 Factored the minibatch-writing code into an iterator class inside DataSet bengioy@esprit.iro.umontreal.ca parents: 36 diff changeset	283 It does not need to worry about wrapping around multiple times across the dataset,
73c4212ba5b3 Factored the minibatch-writing code into an iterator class inside DataSet bengioy@esprit.iro.umontreal.ca parents: 36 diff changeset	284 as this is handled by MinibatchWrapAroundIterator when DataSet.minibatches() is called.
73c4212ba5b3 Factored the minibatch-writing code into an iterator class inside DataSet bengioy@esprit.iro.umontreal.ca parents: 36 diff changeset	285 The next() method of the returned iterator does not even need to worry about
73c4212ba5b3 Factored the minibatch-writing code into an iterator class inside DataSet bengioy@esprit.iro.umontreal.ca parents: 36 diff changeset	286 the termination condition (as StopIteration will be raised by DataSet.minibatches
73c4212ba5b3 Factored the minibatch-writing code into an iterator class inside DataSet bengioy@esprit.iro.umontreal.ca parents: 36 diff changeset	287 before an improper call to minibatches_nowrap's next() is made).
73c4212ba5b3 Factored the minibatch-writing code into an iterator class inside DataSet bengioy@esprit.iro.umontreal.ca parents: 36 diff changeset	288 That next() method can assert that its next row will always be within [0,len(dataset)).
73c4212ba5b3 Factored the minibatch-writing code into an iterator class inside DataSet bengioy@esprit.iro.umontreal.ca parents: 36 diff changeset	289 The iterator returned by minibatches_nowrap does not need to implement
73c4212ba5b3 Factored the minibatch-writing code into an iterator class inside DataSet bengioy@esprit.iro.umontreal.ca parents: 36 diff changeset	290 a next_index() method either, as this will be provided by MinibatchWrapAroundIterator.
73c4212ba5b3 Factored the minibatch-writing code into an iterator class inside DataSet bengioy@esprit.iro.umontreal.ca parents: 36 diff changeset	291 """
17 759d17112b23 more comments, looping ArrayDataSet iterator, bugfixes to lookup_list, more tests bergstrj@iro.umontreal.ca parents: 16 12 diff changeset	292 raise AbstractFunction()
22 b6b36f65664f Created virtual sub-classes of DataSet: {Finite{Length,Width},Sliceable}DataSet, bengioy@esprit.iro.umontreal.ca parents: 20 diff changeset	293
36 438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	294 def __len__(self):
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	295 """
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	296 len(dataset) returns the number of examples in the dataset.
40 88fd1cce08b9 replaced infinity for length by raise UnboundedDataSet and use & instead of + to concatenate datasets bengioy@esprit.iro.umontreal.ca parents: 39 diff changeset	297 By default, a DataSet is a 'stream', i.e. it has an unbounded length (raises UnboundedDataSet).
36 438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	298 Sub-classes which implement finite-length datasets should redefine this method.
40 88fd1cce08b9 replaced infinity for length by raise UnboundedDataSet and use & instead of + to concatenate datasets bengioy@esprit.iro.umontreal.ca parents: 39 diff changeset	299 Some methods only make sense for finite-length datasets.
36 438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	300 """
40 88fd1cce08b9 replaced infinity for length by raise UnboundedDataSet and use & instead of + to concatenate datasets bengioy@esprit.iro.umontreal.ca parents: 39 diff changeset	301 raise UnboundedDataSet()
36 438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	302
26 672fe4b23032 Fixed dataset errors so that _test_dataset.py works again. bengioy@grenat.iro.umontreal.ca parents: 23 diff changeset	303 def hasFields(self,*fieldnames):
20 266c68cb6136 Minor editions, plus adding untested ApplyFunctionDataset for GradientLearner in the works. bengioy@bengiomac.local parents: 19 diff changeset	304 """
22 b6b36f65664f Created virtual sub-classes of DataSet: {Finite{Length,Width},Sliceable}DataSet, bengioy@esprit.iro.umontreal.ca parents: 20 diff changeset	305 Return true if the given field name (or field names, if multiple arguments are
b6b36f65664f Created virtual sub-classes of DataSet: {Finite{Length,Width},Sliceable}DataSet, bengioy@esprit.iro.umontreal.ca parents: 20 diff changeset	306 given) is recognized by the DataSet (i.e. can be used as a field name in one
b6b36f65664f Created virtual sub-classes of DataSet: {Finite{Length,Width},Sliceable}DataSet, bengioy@esprit.iro.umontreal.ca parents: 20 diff changeset	307 of the iterators).
29 46c5c90019c2 Changed apply_function so that it propagates methods of the source. bengioy@grenat.iro.umontreal.ca parents: 28 diff changeset	308
36 438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	309 The default implementation may be inefficient (O(# fields in dataset)), as it calls the fieldNames()
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	310 method. Many datasets may store their field names in a dictionary, which would allow more efficiency.
11 be128b9127c8 Debugged (to the extent of my tests) the new version of dataset bengioy@esprit.iro.umontreal.ca parents: 9 diff changeset	311 """
36 438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	312 return len(unique_elements_list_intersection(fieldnames,self.fieldNames()))>0
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	313
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	314 def fieldNames(self):
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	315 """
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	316 Return the list of field names that are supported by the iterators,
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	317 and for which hasFields(fieldname) would return True.
11 be128b9127c8 Debugged (to the extent of my tests) the new version of dataset bengioy@esprit.iro.umontreal.ca parents: 9 diff changeset	318 """
17 759d17112b23 more comments, looping ArrayDataSet iterator, bugfixes to lookup_list, more tests bergstrj@iro.umontreal.ca parents: 16 12 diff changeset	319 raise AbstractFunction()
759d17112b23 more comments, looping ArrayDataSet iterator, bugfixes to lookup_list, more tests bergstrj@iro.umontreal.ca parents: 16 12 diff changeset	320
36 438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	321 def __call__(self,*fieldnames):
23 526e192b0699 Working on ApplyFunctionDataSet, added constraint that bengioy@esprit.iro.umontreal.ca parents: 22 diff changeset	322 """
36 438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	323 Return a dataset that sees only the fields whose name are specified.
20 266c68cb6136 Minor editions, plus adding untested ApplyFunctionDataset for GradientLearner in the works. bengioy@bengiomac.local parents: 19 diff changeset	324 """
36 438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	325 assert self.hasFields(fieldnames)
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	326 return self.fields(fieldnames).examples()
20 266c68cb6136 Minor editions, plus adding untested ApplyFunctionDataset for GradientLearner in the works. bengioy@bengiomac.local parents: 19 diff changeset	327
36 438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	328 def fields(self,*fieldnames):
29 46c5c90019c2 Changed apply_function so that it propagates methods of the source. bengioy@grenat.iro.umontreal.ca parents: 28 diff changeset	329 """
36 438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	330 Return a DataSetFields object associated with this dataset.
17 759d17112b23 more comments, looping ArrayDataSet iterator, bugfixes to lookup_list, more tests bergstrj@iro.umontreal.ca parents: 16 12 diff changeset	331 """
36 438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	332 return DataSetFields(self,fieldnames)
11 be128b9127c8 Debugged (to the extent of my tests) the new version of dataset bengioy@esprit.iro.umontreal.ca parents: 9 diff changeset	333
2 3fddb1c8f955 Rewrote DataSet interface and created FiniteDataSet interface. bengioy@bengiomac.local parents: 1 diff changeset	334 def __getitem__(self,i):
28 541a273bc89f Removed __array__ method from dataset, whose bengioy@grenat.iro.umontreal.ca parents: 26 diff changeset	335 """
541a273bc89f Removed __array__ method from dataset, whose bengioy@grenat.iro.umontreal.ca parents: 26 diff changeset	336 dataset[i] returns the (i+1)-th example of the dataset.
541a273bc89f Removed __array__ method from dataset, whose bengioy@grenat.iro.umontreal.ca parents: 26 diff changeset	337 dataset[i:j] returns the subdataset with examples i,i+1,...,j-1.
541a273bc89f Removed __array__ method from dataset, whose bengioy@grenat.iro.umontreal.ca parents: 26 diff changeset	338 dataset[i:j:s] returns the subdataset with examples i,i+2,i+4...,j-2.
541a273bc89f Removed __array__ method from dataset, whose bengioy@grenat.iro.umontreal.ca parents: 26 diff changeset	339 dataset[[i1,i2,..,in]] returns the subdataset with examples i1,i2,...,in.
41 283e95c15b47 Added ArrayDataSet bengioy@grenat.iro.umontreal.ca parents: 40 diff changeset	340 dataset['key'] returns a property associated with the given 'key' string.
283e95c15b47 Added ArrayDataSet bengioy@grenat.iro.umontreal.ca parents: 40 diff changeset	341 If 'key' is a fieldname, then the VStacked field values (iterable over
283e95c15b47 Added ArrayDataSet bengioy@grenat.iro.umontreal.ca parents: 40 diff changeset	342 field values) for that field is returned. Other keys may be supported
283e95c15b47 Added ArrayDataSet bengioy@grenat.iro.umontreal.ca parents: 40 diff changeset	343 by different dataset subclasses. The following key names are encouraged:
283e95c15b47 Added ArrayDataSet bengioy@grenat.iro.umontreal.ca parents: 40 diff changeset	344 - 'description': a textual description or name for the dataset
283e95c15b47 Added ArrayDataSet bengioy@grenat.iro.umontreal.ca parents: 40 diff changeset	345 - '<fieldname>.type': a type name or value for a given <fieldname>
1 2cd82666b9a7 Added statscollector and started writing dataset and learner. bengioy@esprit.iro.umontreal.ca parents: 0 diff changeset	346
39 c682c6e9bf93 Minor edits bengioy@esprit.iro.umontreal.ca parents: 38 diff changeset	347 Note that some stream datasets may be unable to implement random access, i.e.
c682c6e9bf93 Minor edits bengioy@esprit.iro.umontreal.ca parents: 38 diff changeset	348 arbitrary slicing/indexing
36 438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	349 because they can only iterate through examples one or a minibatch at a time
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	350 and do not actually store or keep past (or future) examples.
40 88fd1cce08b9 replaced infinity for length by raise UnboundedDataSet and use & instead of + to concatenate datasets bengioy@esprit.iro.umontreal.ca parents: 39 diff changeset	351
88fd1cce08b9 replaced infinity for length by raise UnboundedDataSet and use & instead of + to concatenate datasets bengioy@esprit.iro.umontreal.ca parents: 39 diff changeset	352 The default implementation of getitem uses the minibatches iterator
88fd1cce08b9 replaced infinity for length by raise UnboundedDataSet and use & instead of + to concatenate datasets bengioy@esprit.iro.umontreal.ca parents: 39 diff changeset	353 to obtain one example, one slice, or a list of examples. It may not
88fd1cce08b9 replaced infinity for length by raise UnboundedDataSet and use & instead of + to concatenate datasets bengioy@esprit.iro.umontreal.ca parents: 39 diff changeset	354 always be the most efficient way to obtain the result, especially if
88fd1cce08b9 replaced infinity for length by raise UnboundedDataSet and use & instead of + to concatenate datasets bengioy@esprit.iro.umontreal.ca parents: 39 diff changeset	355 the data are actually stored in a memory array.
28 541a273bc89f Removed __array__ method from dataset, whose bengioy@grenat.iro.umontreal.ca parents: 26 diff changeset	356 """
41 283e95c15b47 Added ArrayDataSet bengioy@grenat.iro.umontreal.ca parents: 40 diff changeset	357 # check for an index
40 88fd1cce08b9 replaced infinity for length by raise UnboundedDataSet and use & instead of + to concatenate datasets bengioy@esprit.iro.umontreal.ca parents: 39 diff changeset	358 if type(i) is int:
88fd1cce08b9 replaced infinity for length by raise UnboundedDataSet and use & instead of + to concatenate datasets bengioy@esprit.iro.umontreal.ca parents: 39 diff changeset	359 return DataSet.MinibatchToSingleExampleIterator(
88fd1cce08b9 replaced infinity for length by raise UnboundedDataSet and use & instead of + to concatenate datasets bengioy@esprit.iro.umontreal.ca parents: 39 diff changeset	360 self.minibatches(minibatch_size=1,n_batches=1,offset=i)).next()
41 283e95c15b47 Added ArrayDataSet bengioy@grenat.iro.umontreal.ca parents: 40 diff changeset	361 rows=None
283e95c15b47 Added ArrayDataSet bengioy@grenat.iro.umontreal.ca parents: 40 diff changeset	362 # or a slice
40 88fd1cce08b9 replaced infinity for length by raise UnboundedDataSet and use & instead of + to concatenate datasets bengioy@esprit.iro.umontreal.ca parents: 39 diff changeset	363 if type(i) is slice:
88fd1cce08b9 replaced infinity for length by raise UnboundedDataSet and use & instead of + to concatenate datasets bengioy@esprit.iro.umontreal.ca parents: 39 diff changeset	364 if not i.start: i.start=0
88fd1cce08b9 replaced infinity for length by raise UnboundedDataSet and use & instead of + to concatenate datasets bengioy@esprit.iro.umontreal.ca parents: 39 diff changeset	365 if not i.step: i.step=1
88fd1cce08b9 replaced infinity for length by raise UnboundedDataSet and use & instead of + to concatenate datasets bengioy@esprit.iro.umontreal.ca parents: 39 diff changeset	366 if i.step is 1:
88fd1cce08b9 replaced infinity for length by raise UnboundedDataSet and use & instead of + to concatenate datasets bengioy@esprit.iro.umontreal.ca parents: 39 diff changeset	367 return self.minibatches(minibatch_size=i.stop-i.start,n_batches=1,offset=i.start).next().examples()
88fd1cce08b9 replaced infinity for length by raise UnboundedDataSet and use & instead of + to concatenate datasets bengioy@esprit.iro.umontreal.ca parents: 39 diff changeset	368 rows = range(i.start,i.stop,i.step)
41 283e95c15b47 Added ArrayDataSet bengioy@grenat.iro.umontreal.ca parents: 40 diff changeset	369 # or a list of indices
283e95c15b47 Added ArrayDataSet bengioy@grenat.iro.umontreal.ca parents: 40 diff changeset	370 elif type(i) is list:
40 88fd1cce08b9 replaced infinity for length by raise UnboundedDataSet and use & instead of + to concatenate datasets bengioy@esprit.iro.umontreal.ca parents: 39 diff changeset	371 rows = i
41 283e95c15b47 Added ArrayDataSet bengioy@grenat.iro.umontreal.ca parents: 40 diff changeset	372 if rows is not None:
283e95c15b47 Added ArrayDataSet bengioy@grenat.iro.umontreal.ca parents: 40 diff changeset	373 fields_values = zip(*[self[row] for row in rows])
283e95c15b47 Added ArrayDataSet bengioy@grenat.iro.umontreal.ca parents: 40 diff changeset	374 return MinibatchDataSet(
283e95c15b47 Added ArrayDataSet bengioy@grenat.iro.umontreal.ca parents: 40 diff changeset	375 Example(self.fieldNames(),[ self.valuesVStack(fieldname,field_values)
283e95c15b47 Added ArrayDataSet bengioy@grenat.iro.umontreal.ca parents: 40 diff changeset	376 for fieldname,field_values
283e95c15b47 Added ArrayDataSet bengioy@grenat.iro.umontreal.ca parents: 40 diff changeset	377 in zip(self.fieldNames(),fields_values)]))
283e95c15b47 Added ArrayDataSet bengioy@grenat.iro.umontreal.ca parents: 40 diff changeset	378 # else check for a fieldname
283e95c15b47 Added ArrayDataSet bengioy@grenat.iro.umontreal.ca parents: 40 diff changeset	379 if self.hasFields(i):
283e95c15b47 Added ArrayDataSet bengioy@grenat.iro.umontreal.ca parents: 40 diff changeset	380 return self.minibatches(fieldnames=[i],minibatch_size=len(self),n_batches=1,offset=0).next()[0]
283e95c15b47 Added ArrayDataSet bengioy@grenat.iro.umontreal.ca parents: 40 diff changeset	381 # else we are trying to access a property of the dataset
283e95c15b47 Added ArrayDataSet bengioy@grenat.iro.umontreal.ca parents: 40 diff changeset	382 assert i in self.__dict__ # else it means we are trying to access a non-existing property
283e95c15b47 Added ArrayDataSet bengioy@grenat.iro.umontreal.ca parents: 40 diff changeset	383 return self.__dict__[i]
22 b6b36f65664f Created virtual sub-classes of DataSet: {Finite{Length,Width},Sliceable}DataSet, bengioy@esprit.iro.umontreal.ca parents: 20 diff changeset	384
36 438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	385 def valuesHStack(self,fieldnames,fieldvalues):
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	386 """
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	387 Return a value that corresponds to concatenating (horizontally) several field values.
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	388 This can be useful to merge some fields. The implementation of this operation is likely
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	389 to involve a copy of the original values. When the values are numpy arrays, the
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	390 result should be numpy.hstack(values). If it makes sense, this operation should
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	391 work as well when each value corresponds to multiple examples in a minibatch
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	392 e.g. if each value is a Ni-vector and a minibatch of length L is a LxNi matrix,
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	393 then the result should be a Lx(N1+N2+..) matrix equal to numpy.hstack(values).
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	394 The default is to use numpy.hstack for numpy.ndarray values, and a list
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	395 pointing to the original values for other data types.
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	396 """
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	397 all_numpy=True
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	398 for value in fieldvalues:
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	399 if not type(value) is numpy.ndarray:
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	400 all_numpy=False
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	401 if all_numpy:
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	402 return numpy.hstack(fieldvalues)
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	403 # the default implementation of horizontal stacking is to put values in a list
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	404 return fieldvalues
26 672fe4b23032 Fixed dataset errors so that _test_dataset.py works again. bengioy@grenat.iro.umontreal.ca parents: 23 diff changeset	405
672fe4b23032 Fixed dataset errors so that _test_dataset.py works again. bengioy@grenat.iro.umontreal.ca parents: 23 diff changeset	406
36 438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	407 def valuesVStack(self,fieldname,values):
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	408 """
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	409 Return a value that corresponds to concatenating (vertically) several values of the
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	410 same field. This can be important to build a minibatch out of individual examples. This
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	411 is likely to involve a copy of the original values. When the values are numpy arrays, the
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	412 result should be numpy.vstack(values).
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	413 The default is to use numpy.vstack for numpy.ndarray values, and a list
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	414 pointing to the original values for other data types.
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	415 """
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	416 all_numpy=True
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	417 for value in values:
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	418 if not type(value) is numpy.ndarray:
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	419 all_numpy=False
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	420 if all_numpy:
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	421 return numpy.vstack(values)
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	422 # the default implementation of vertical stacking is to put values in a list
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	423 return values
17 759d17112b23 more comments, looping ArrayDataSet iterator, bugfixes to lookup_list, more tests bergstrj@iro.umontreal.ca parents: 16 12 diff changeset	424
36 438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	425 def __or__(self,other):
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	426 """
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	427 dataset1 \| dataset2 returns a dataset whose list of fields is the concatenation of the list of
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	428 fields of the argument datasets. This only works if they all have the same length.
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	429 """
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	430 return HStackedDataSet(self,other)
3 378b68d5c4ad Added first (untested) version of ArrayDataSet bengioy@bengiomac.local parents: 2 diff changeset	431
40 88fd1cce08b9 replaced infinity for length by raise UnboundedDataSet and use & instead of + to concatenate datasets bengioy@esprit.iro.umontreal.ca parents: 39 diff changeset	432 def __and__(self,other):
36 438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	433 """
40 88fd1cce08b9 replaced infinity for length by raise UnboundedDataSet and use & instead of + to concatenate datasets bengioy@esprit.iro.umontreal.ca parents: 39 diff changeset	434 dataset1 & dataset2 is a dataset that concatenates the examples from the argument datasets
36 438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	435 (and whose length is the sum of the length of the argument datasets). This only
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	436 works if they all have the same fields.
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	437 """
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	438 return VStackedDataSet(self,other)
23 526e192b0699 Working on ApplyFunctionDataSet, added constraint that bengioy@esprit.iro.umontreal.ca parents: 22 diff changeset	439
36 438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	440 def hstack(datasets):
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	441 """
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	442 hstack(dataset1,dataset2,...) returns dataset1 \| datataset2 \| ...
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	443 which is a dataset whose fields list is the concatenation of the fields
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	444 of the individual datasets.
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	445 """
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	446 assert len(datasets)>0
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	447 if len(datasets)==1:
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	448 return datasets[0]
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	449 return HStackedDataSet(datasets)
17 759d17112b23 more comments, looping ArrayDataSet iterator, bugfixes to lookup_list, more tests bergstrj@iro.umontreal.ca parents: 16 12 diff changeset	450
36 438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	451 def vstack(datasets):
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	452 """
40 88fd1cce08b9 replaced infinity for length by raise UnboundedDataSet and use & instead of + to concatenate datasets bengioy@esprit.iro.umontreal.ca parents: 39 diff changeset	453 vstack(dataset1,dataset2,...) returns dataset1 & datataset2 & ...
36 438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	454 which is a dataset which iterates first over the examples of dataset1, then
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	455 over those of dataset2, etc.
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	456 """
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	457 assert len(datasets)>0
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	458 if len(datasets)==1:
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	459 return datasets[0]
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	460 return VStackedDataSet(datasets)
17 759d17112b23 more comments, looping ArrayDataSet iterator, bugfixes to lookup_list, more tests bergstrj@iro.umontreal.ca parents: 16 12 diff changeset	461
759d17112b23 more comments, looping ArrayDataSet iterator, bugfixes to lookup_list, more tests bergstrj@iro.umontreal.ca parents: 16 12 diff changeset	462
36 438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	463 class DataSetFields(LookupList):
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	464 """
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	465 Although a DataSet iterates over examples (like rows of a matrix), an associated
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	466 DataSetFields iterates over fields (like columns of a matrix), and can be understood
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	467 as a transpose of the associated dataset.
17 759d17112b23 more comments, looping ArrayDataSet iterator, bugfixes to lookup_list, more tests bergstrj@iro.umontreal.ca parents: 16 12 diff changeset	468
36 438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	469 To iterate over fields, one can do
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	470 * for fields in dataset.fields()
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	471 * for fields in dataset(field1,field2,...).fields() to select a subset of fields
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	472 * for fields in dataset.fields(field1,field2,...) to select a subset of fields
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	473 and each of these fields is iterable over the examples:
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	474 * for field_examples in dataset.fields():
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	475 for example_value in field_examples:
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	476 ...
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	477 but when the dataset is a stream (unbounded length), it is not recommanded to do
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	478 such things because the underlying dataset may refuse to access the different fields in
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	479 an unsynchronized ways. Hence the fields() method is illegal for streams, by default.
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	480 The result of fields() is a DataSetFields object, which iterates over fields,
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	481 and whose elements are iterable over examples. A DataSetFields object can
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	482 be turned back into a DataSet with its examples() method:
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	483 dataset2 = dataset1.fields().examples()
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	484 and dataset2 should behave exactly like dataset1 (in fact by default dataset2==dataset1).
40 88fd1cce08b9 replaced infinity for length by raise UnboundedDataSet and use & instead of + to concatenate datasets bengioy@esprit.iro.umontreal.ca parents: 39 diff changeset	485
88fd1cce08b9 replaced infinity for length by raise UnboundedDataSet and use & instead of + to concatenate datasets bengioy@esprit.iro.umontreal.ca parents: 39 diff changeset	486 DataSetFields can be concatenated vertically or horizontally. To be consistent with
88fd1cce08b9 replaced infinity for length by raise UnboundedDataSet and use & instead of + to concatenate datasets bengioy@esprit.iro.umontreal.ca parents: 39 diff changeset	487 the syntax used for DataSets, the \| concatenates the fields and the & concatenates
88fd1cce08b9 replaced infinity for length by raise UnboundedDataSet and use & instead of + to concatenate datasets bengioy@esprit.iro.umontreal.ca parents: 39 diff changeset	488 the examples.
36 438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	489 """
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	490 def __init__(self,dataset,*fieldnames):
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	491 self.dataset=dataset
40 88fd1cce08b9 replaced infinity for length by raise UnboundedDataSet and use & instead of + to concatenate datasets bengioy@esprit.iro.umontreal.ca parents: 39 diff changeset	492 if not fieldnames:
88fd1cce08b9 replaced infinity for length by raise UnboundedDataSet and use & instead of + to concatenate datasets bengioy@esprit.iro.umontreal.ca parents: 39 diff changeset	493 fieldnames=dataset.fieldNames()
37 73c4212ba5b3 Factored the minibatch-writing code into an iterator class inside DataSet bengioy@esprit.iro.umontreal.ca parents: 36 diff changeset	494 assert dataset.hasFields(*fieldnames)
36 438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	495 LookupList.__init__(self,dataset.fieldNames(),
37 73c4212ba5b3 Factored the minibatch-writing code into an iterator class inside DataSet bengioy@esprit.iro.umontreal.ca parents: 36 diff changeset	496 dataset.minibatches(fieldnames if len(fieldnames)>0 else self.fieldNames(),
41 283e95c15b47 Added ArrayDataSet bengioy@grenat.iro.umontreal.ca parents: 40 diff changeset	497 minibatch_size=len(dataset)).next())
36 438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	498 def examples(self):
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	499 return self.dataset
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	500
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	501 def __or__(self,other):
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	502 """
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	503 fields1 \| fields2 is a DataSetFields that whose list of examples is the concatenation
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	504 of the list of examples of DataSetFields fields1 and fields2.
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	505 """
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	506 return (self.examples() + other.examples()).fields()
17 759d17112b23 more comments, looping ArrayDataSet iterator, bugfixes to lookup_list, more tests bergstrj@iro.umontreal.ca parents: 16 12 diff changeset	507
40 88fd1cce08b9 replaced infinity for length by raise UnboundedDataSet and use & instead of + to concatenate datasets bengioy@esprit.iro.umontreal.ca parents: 39 diff changeset	508 def __and__(self,other):
17 759d17112b23 more comments, looping ArrayDataSet iterator, bugfixes to lookup_list, more tests bergstrj@iro.umontreal.ca parents: 16 12 diff changeset	509 """
36 438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	510 fields1 + fields2 is a DataSetFields that whose list of fields is the concatenation
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	511 of the fields of DataSetFields fields1 and fields2.
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	512 """
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	513 return (self.examples() \| other.examples()).fields()
17 759d17112b23 more comments, looping ArrayDataSet iterator, bugfixes to lookup_list, more tests bergstrj@iro.umontreal.ca parents: 16 12 diff changeset	514
37 73c4212ba5b3 Factored the minibatch-writing code into an iterator class inside DataSet bengioy@esprit.iro.umontreal.ca parents: 36 diff changeset	515
36 438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	516 class MinibatchDataSet(DataSet):
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	517 """
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	518 Turn a LookupList of same-length fields into an example-iterable dataset.
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	519 Each element of the lookup-list should be an iterable and sliceable, all of the same length.
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	520 """
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	521 def __init__(self,fields_lookuplist,values_vstack=DataSet().valuesVStack,
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	522 values_hstack=DataSet().valuesHStack):
17 759d17112b23 more comments, looping ArrayDataSet iterator, bugfixes to lookup_list, more tests bergstrj@iro.umontreal.ca parents: 16 12 diff changeset	523 """
36 438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	524 The user can (and generally should) also provide values_vstack(fieldname,fieldvalues)
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	525 and a values_hstack(fieldnames,fieldvalues) functions behaving with the same
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	526 semantics as the DataSet methods of the same name (but without the self argument).
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	527 """
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	528 self.fields=fields_lookuplist
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	529 assert len(fields_lookuplist)>0
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	530 self.length=len(fields_lookuplist[0])
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	531 for field in fields_lookuplist[1:]:
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	532 assert self.length==len(field)
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	533 self.values_vstack=values_vstack
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	534 self.values_hstack=values_hstack
3 378b68d5c4ad Added first (untested) version of ArrayDataSet bengioy@bengiomac.local parents: 2 diff changeset	535
378b68d5c4ad Added first (untested) version of ArrayDataSet bengioy@bengiomac.local parents: 2 diff changeset	536 def __len__(self):
36 438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	537 return self.length
28 541a273bc89f Removed __array__ method from dataset, whose bengioy@grenat.iro.umontreal.ca parents: 26 diff changeset	538
36 438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	539 def __getitem__(self,i):
40 88fd1cce08b9 replaced infinity for length by raise UnboundedDataSet and use & instead of + to concatenate datasets bengioy@esprit.iro.umontreal.ca parents: 39 diff changeset	540 return DataSetFields(MinibatchDataSet(
88fd1cce08b9 replaced infinity for length by raise UnboundedDataSet and use & instead of + to concatenate datasets bengioy@esprit.iro.umontreal.ca parents: 39 diff changeset	541 Example(self.fields.keys(),[field[i] for field in self.fields])),self.fields)
11 be128b9127c8 Debugged (to the extent of my tests) the new version of dataset bengioy@esprit.iro.umontreal.ca parents: 9 diff changeset	542
29 46c5c90019c2 Changed apply_function so that it propagates methods of the source. bengioy@grenat.iro.umontreal.ca parents: 28 diff changeset	543 def fieldNames(self):
36 438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	544 return self.fields.keys()
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	545
37 73c4212ba5b3 Factored the minibatch-writing code into an iterator class inside DataSet bengioy@esprit.iro.umontreal.ca parents: 36 diff changeset	546 def hasFields(self,*fieldnames):
36 438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	547 for fieldname in fieldnames:
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	548 if fieldname not in self.fields:
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	549 return False
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	550 return True
20 266c68cb6136 Minor editions, plus adding untested ApplyFunctionDataset for GradientLearner in the works. bengioy@bengiomac.local parents: 19 diff changeset	551
37 73c4212ba5b3 Factored the minibatch-writing code into an iterator class inside DataSet bengioy@esprit.iro.umontreal.ca parents: 36 diff changeset	552 def minibatches_nowrap(self,fieldnames,minibatch_size,n_batches,offset):
36 438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	553 class Iterator(object):
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	554 def __init__(self,ds):
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	555 self.ds=ds
37 73c4212ba5b3 Factored the minibatch-writing code into an iterator class inside DataSet bengioy@esprit.iro.umontreal.ca parents: 36 diff changeset	556 self.next_example=offset
36 438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	557 assert minibatch_size > 0
41 283e95c15b47 Added ArrayDataSet bengioy@grenat.iro.umontreal.ca parents: 40 diff changeset	558 if offset+minibatch_size > ds.length:
36 438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	559 raise NotImplementedError()
20 266c68cb6136 Minor editions, plus adding untested ApplyFunctionDataset for GradientLearner in the works. bengioy@bengiomac.local parents: 19 diff changeset	560 def __iter__(self):
266c68cb6136 Minor editions, plus adding untested ApplyFunctionDataset for GradientLearner in the works. bengioy@bengiomac.local parents: 19 diff changeset	561 return self
266c68cb6136 Minor editions, plus adding untested ApplyFunctionDataset for GradientLearner in the works. bengioy@bengiomac.local parents: 19 diff changeset	562 def next(self):
36 438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	563 upper = next_example+minibatch_size
37 73c4212ba5b3 Factored the minibatch-writing code into an iterator class inside DataSet bengioy@esprit.iro.umontreal.ca parents: 36 diff changeset	564 assert upper<=self.ds.length
73c4212ba5b3 Factored the minibatch-writing code into an iterator class inside DataSet bengioy@esprit.iro.umontreal.ca parents: 36 diff changeset	565 minibatch = Example(self.ds.fields.keys(),
73c4212ba5b3 Factored the minibatch-writing code into an iterator class inside DataSet bengioy@esprit.iro.umontreal.ca parents: 36 diff changeset	566 [field[next_example:upper]
73c4212ba5b3 Factored the minibatch-writing code into an iterator class inside DataSet bengioy@esprit.iro.umontreal.ca parents: 36 diff changeset	567 for field in self.ds.fields])
36 438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	568 self.next_example+=minibatch_size
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	569 return DataSetFields(MinibatchDataSet(minibatch),fieldnames)
20 266c68cb6136 Minor editions, plus adding untested ApplyFunctionDataset for GradientLearner in the works. bengioy@bengiomac.local parents: 19 diff changeset	570
40 88fd1cce08b9 replaced infinity for length by raise UnboundedDataSet and use & instead of + to concatenate datasets bengioy@esprit.iro.umontreal.ca parents: 39 diff changeset	571 return Iterator(self)
20 266c68cb6136 Minor editions, plus adding untested ApplyFunctionDataset for GradientLearner in the works. bengioy@bengiomac.local parents: 19 diff changeset	572
36 438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	573 def valuesVStack(self,fieldname,fieldvalues):
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	574 return self.values_vstack(fieldname,fieldvalues)
20 266c68cb6136 Minor editions, plus adding untested ApplyFunctionDataset for GradientLearner in the works. bengioy@bengiomac.local parents: 19 diff changeset	575
36 438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	576 def valuesHStack(self,fieldnames,fieldvalues):
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	577 return self.values_hstack(fieldnames,fieldvalues)
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	578
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	579 class HStackedDataSet(DataSet):
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	580 """
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	581 A DataSet that wraps several datasets and shows a view that includes all their fields,
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	582 i.e. whose list of fields is the concatenation of their lists of fields.
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	583
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	584 If a field name is found in more than one of the datasets, then either an error is
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	585 raised or the fields are renamed (either by prefixing the __name__ attribute
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	586 of the dataset + ".", if it exists, or by suffixing the dataset index in the argument list).
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	587
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	588 TODO: automatically detect a chain of stacked datasets due to A \| B \| C \| D ...
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	589 """
41 283e95c15b47 Added ArrayDataSet bengioy@grenat.iro.umontreal.ca parents: 40 diff changeset	590 def __init__(self,datasets,accept_nonunique_names=False,description=None,field_types=None):
283e95c15b47 Added ArrayDataSet bengioy@grenat.iro.umontreal.ca parents: 40 diff changeset	591 DataSet.__init__(self,description,field_types)
36 438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	592 self.datasets=datasets
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	593 self.accept_nonunique_names=accept_nonunique_names
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	594 self.fieldname2dataset={}
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	595
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	596 def rename_field(fieldname,dataset,i):
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	597 if hasattr(dataset,"__name__"):
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	598 return dataset.__name__ + "." + fieldname
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	599 return fieldname+"."+str(i)
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	600
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	601 # make sure all datasets have the same length and unique field names
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	602 self.length=None
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	603 names_to_change=[]
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	604 for i in xrange(len(datasets)):
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	605 dataset = datasets[i]
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	606 length=len(dataset)
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	607 if self.length:
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	608 assert self.length==length
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	609 else:
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	610 self.length=length
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	611 for fieldname in dataset.fieldNames():
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	612 if fieldname in self.fieldname2dataset: # name conflict!
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	613 if accept_nonunique_names:
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	614 fieldname=rename_field(fieldname,dataset,i)
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	615 names2change.append((fieldname,i))
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	616 else:
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	617 raise ValueError("Incompatible datasets: non-unique field name = "+fieldname)
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	618 self.fieldname2dataset[fieldname]=i
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	619 for fieldname,i in names_to_change:
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	620 del self.fieldname2dataset[fieldname]
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	621 self.fieldname2dataset[rename_field(fieldname,self.datasets[i],i)]=i
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	622
37 73c4212ba5b3 Factored the minibatch-writing code into an iterator class inside DataSet bengioy@esprit.iro.umontreal.ca parents: 36 diff changeset	623 def hasFields(self,*fieldnames):
36 438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	624 for fieldname in fieldnames:
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	625 if not fieldname in self.fieldname2dataset:
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	626 return False
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	627 return True
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	628
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	629 def fieldNames(self):
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	630 return self.fieldname2dataset.keys()
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	631
41 283e95c15b47 Added ArrayDataSet bengioy@grenat.iro.umontreal.ca parents: 40 diff changeset	632 def minibatches_nowrap(self,fieldnames,minibatch_size,n_batches,offset):
36 438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	633
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	634 class Iterator(object):
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	635 def __init__(self,hsds,iterators):
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	636 self.hsds=hsds
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	637 self.iterators=iterators
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	638 def __iter__(self):
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	639 return self
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	640 def next(self):
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	641 # concatenate all the fields of the minibatches
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	642 minibatch = reduce(LookupList.__add__,[iterator.next() for iterator in self.iterators])
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	643 # and return a DataSetFields whose dataset is the transpose (=examples()) of this minibatch
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	644 return DataSetFields(MinibatchDataSet(minibatch,self.hsds.valuesVStack,
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	645 self.hsds.valuesHStack),
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	646 fieldnames if fieldnames else hsds.fieldNames())
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	647
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	648 assert self.hasfields(fieldnames)
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	649 # find out which underlying datasets are necessary to service the required fields
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	650 # and construct corresponding minibatch iterators
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	651 if fieldnames:
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	652 datasets=set([])
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	653 fields_in_dataset=dict([(dataset,[]) for dataset in datasets])
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	654 for fieldname in fieldnames:
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	655 dataset=self.datasets[self.fieldnames2dataset[fieldname]]
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	656 datasets.add(dataset)
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	657 fields_in_dataset[dataset].append(fieldname)
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	658 datasets=list(datasets)
37 73c4212ba5b3 Factored the minibatch-writing code into an iterator class inside DataSet bengioy@esprit.iro.umontreal.ca parents: 36 diff changeset	659 iterators=[dataset.minibatches(fields_in_dataset[dataset],minibatch_size,n_batches,offset)
36 438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	660 for dataset in datasets]
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	661 else:
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	662 datasets=self.datasets
37 73c4212ba5b3 Factored the minibatch-writing code into an iterator class inside DataSet bengioy@esprit.iro.umontreal.ca parents: 36 diff changeset	663 iterators=[dataset.minibatches(None,minibatch_size,n_batches,offset) for dataset in datasets]
36 438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	664 return Iterator(self,iterators)
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	665
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	666
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	667 def valuesVStack(self,fieldname,fieldvalues):
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	668 return self.datasets[self.fieldname2dataset[fieldname]].valuesVStack(fieldname,fieldvalues)
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	669
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	670 def valuesHStack(self,fieldnames,fieldvalues):
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	671 """
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	672 We will use the sub-dataset associated with the first fieldname in the fieldnames list
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	673 to do the work, hoping that it can cope with the other values (i.e. won't care
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	674 about the incompatible fieldnames). Hence this heuristic will always work if
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	675 all the fieldnames are of the same sub-dataset.
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	676 """
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	677 return self.datasets[self.fieldname2dataset[fieldnames[0]]].valuesHStack(fieldnames,fieldvalues)
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	678
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	679 class VStackedDataSet(DataSet):
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	680 """
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	681 A DataSet that wraps several datasets and shows a view that includes all their examples,
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	682 in the order provided. This clearly assumes that they all have the same field names
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	683 and all (except possibly the last one) are of finite length.
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	684
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	685 TODO: automatically detect a chain of stacked datasets due to A + B + C + D ...
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	686 """
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	687 def __init__(self,datasets):
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	688 self.datasets=datasets
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	689 self.length=0
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	690 self.index2dataset={}
37 73c4212ba5b3 Factored the minibatch-writing code into an iterator class inside DataSet bengioy@esprit.iro.umontreal.ca parents: 36 diff changeset	691 assert len(datasets)>0
73c4212ba5b3 Factored the minibatch-writing code into an iterator class inside DataSet bengioy@esprit.iro.umontreal.ca parents: 36 diff changeset	692 fieldnames = datasets[-1].fieldNames()
38 d637ad8f7352 Finished first untested version of VStackedDataset bengioy@esprit.iro.umontreal.ca parents: 37 diff changeset	693 self.datasets_start_row=[]
37 73c4212ba5b3 Factored the minibatch-writing code into an iterator class inside DataSet bengioy@esprit.iro.umontreal.ca parents: 36 diff changeset	694 # We use this map from row index to dataset index for constant-time random access of examples,
73c4212ba5b3 Factored the minibatch-writing code into an iterator class inside DataSet bengioy@esprit.iro.umontreal.ca parents: 36 diff changeset	695 # to avoid having to search for the appropriate dataset each time and slice is asked for.
36 438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	696 for dataset,k in enumerate(datasets[0:-1]):
40 88fd1cce08b9 replaced infinity for length by raise UnboundedDataSet and use & instead of + to concatenate datasets bengioy@esprit.iro.umontreal.ca parents: 39 diff changeset	697 try:
88fd1cce08b9 replaced infinity for length by raise UnboundedDataSet and use & instead of + to concatenate datasets bengioy@esprit.iro.umontreal.ca parents: 39 diff changeset	698 L=len(dataset)
88fd1cce08b9 replaced infinity for length by raise UnboundedDataSet and use & instead of + to concatenate datasets bengioy@esprit.iro.umontreal.ca parents: 39 diff changeset	699 except UnboundedDataSet:
88fd1cce08b9 replaced infinity for length by raise UnboundedDataSet and use & instead of + to concatenate datasets bengioy@esprit.iro.umontreal.ca parents: 39 diff changeset	700 print "All VStacked datasets (except possibly the last) must be bounded (have a length)."
88fd1cce08b9 replaced infinity for length by raise UnboundedDataSet and use & instead of + to concatenate datasets bengioy@esprit.iro.umontreal.ca parents: 39 diff changeset	701 assert False
36 438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	702 for i in xrange(L):
438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	703 self.index2dataset[self.length+i]=k
38 d637ad8f7352 Finished first untested version of VStackedDataset bengioy@esprit.iro.umontreal.ca parents: 37 diff changeset	704 self.datasets_start_row.append(self.length)
36 438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	705 self.length+=L
37 73c4212ba5b3 Factored the minibatch-writing code into an iterator class inside DataSet bengioy@esprit.iro.umontreal.ca parents: 36 diff changeset	706 assert dataset.fieldNames()==fieldnames
38 d637ad8f7352 Finished first untested version of VStackedDataset bengioy@esprit.iro.umontreal.ca parents: 37 diff changeset	707 self.datasets_start_row.append(self.length)
36 438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	708 self.length+=len(datasets[-1])
37 73c4212ba5b3 Factored the minibatch-writing code into an iterator class inside DataSet bengioy@esprit.iro.umontreal.ca parents: 36 diff changeset	709 # If length is very large, we should use a more memory-efficient mechanism
73c4212ba5b3 Factored the minibatch-writing code into an iterator class inside DataSet bengioy@esprit.iro.umontreal.ca parents: 36 diff changeset	710 # that does not store all indices
73c4212ba5b3 Factored the minibatch-writing code into an iterator class inside DataSet bengioy@esprit.iro.umontreal.ca parents: 36 diff changeset	711 if self.length>1000000:
73c4212ba5b3 Factored the minibatch-writing code into an iterator class inside DataSet bengioy@esprit.iro.umontreal.ca parents: 36 diff changeset	712 # 1 million entries would require about 60 meg for the index2dataset map
73c4212ba5b3 Factored the minibatch-writing code into an iterator class inside DataSet bengioy@esprit.iro.umontreal.ca parents: 36 diff changeset	713 # TODO
73c4212ba5b3 Factored the minibatch-writing code into an iterator class inside DataSet bengioy@esprit.iro.umontreal.ca parents: 36 diff changeset	714 print "A more efficient mechanism for index2dataset should be implemented"
73c4212ba5b3 Factored the minibatch-writing code into an iterator class inside DataSet bengioy@esprit.iro.umontreal.ca parents: 36 diff changeset	715
73c4212ba5b3 Factored the minibatch-writing code into an iterator class inside DataSet bengioy@esprit.iro.umontreal.ca parents: 36 diff changeset	716 def __len__(self):
73c4212ba5b3 Factored the minibatch-writing code into an iterator class inside DataSet bengioy@esprit.iro.umontreal.ca parents: 36 diff changeset	717 return self.length
73c4212ba5b3 Factored the minibatch-writing code into an iterator class inside DataSet bengioy@esprit.iro.umontreal.ca parents: 36 diff changeset	718
73c4212ba5b3 Factored the minibatch-writing code into an iterator class inside DataSet bengioy@esprit.iro.umontreal.ca parents: 36 diff changeset	719 def fieldNames(self):
73c4212ba5b3 Factored the minibatch-writing code into an iterator class inside DataSet bengioy@esprit.iro.umontreal.ca parents: 36 diff changeset	720 return self.datasets[0].fieldNames()
73c4212ba5b3 Factored the minibatch-writing code into an iterator class inside DataSet bengioy@esprit.iro.umontreal.ca parents: 36 diff changeset	721
73c4212ba5b3 Factored the minibatch-writing code into an iterator class inside DataSet bengioy@esprit.iro.umontreal.ca parents: 36 diff changeset	722 def hasFields(self,*fieldnames):
73c4212ba5b3 Factored the minibatch-writing code into an iterator class inside DataSet bengioy@esprit.iro.umontreal.ca parents: 36 diff changeset	723 return self.datasets[0].hasFields(*fieldnames)
73c4212ba5b3 Factored the minibatch-writing code into an iterator class inside DataSet bengioy@esprit.iro.umontreal.ca parents: 36 diff changeset	724
38 d637ad8f7352 Finished first untested version of VStackedDataset bengioy@esprit.iro.umontreal.ca parents: 37 diff changeset	725 def locate_row(self,row):
d637ad8f7352 Finished first untested version of VStackedDataset bengioy@esprit.iro.umontreal.ca parents: 37 diff changeset	726 """Return (dataset_index, row_within_dataset) for global row number"""
d637ad8f7352 Finished first untested version of VStackedDataset bengioy@esprit.iro.umontreal.ca parents: 37 diff changeset	727 dataset_index = self.index2dataset[row]
d637ad8f7352 Finished first untested version of VStackedDataset bengioy@esprit.iro.umontreal.ca parents: 37 diff changeset	728 row_within_dataset = self.datasets_start_row[dataset_index]
d637ad8f7352 Finished first untested version of VStackedDataset bengioy@esprit.iro.umontreal.ca parents: 37 diff changeset	729 return dataset_index, row_within_dataset
d637ad8f7352 Finished first untested version of VStackedDataset bengioy@esprit.iro.umontreal.ca parents: 37 diff changeset	730
41 283e95c15b47 Added ArrayDataSet bengioy@grenat.iro.umontreal.ca parents: 40 diff changeset	731 def minibatches_nowrap(self,fieldnames,minibatch_size,n_batches,offset):
38 d637ad8f7352 Finished first untested version of VStackedDataset bengioy@esprit.iro.umontreal.ca parents: 37 diff changeset	732
37 73c4212ba5b3 Factored the minibatch-writing code into an iterator class inside DataSet bengioy@esprit.iro.umontreal.ca parents: 36 diff changeset	733 class Iterator(object):
73c4212ba5b3 Factored the minibatch-writing code into an iterator class inside DataSet bengioy@esprit.iro.umontreal.ca parents: 36 diff changeset	734 def __init__(self,vsds):
73c4212ba5b3 Factored the minibatch-writing code into an iterator class inside DataSet bengioy@esprit.iro.umontreal.ca parents: 36 diff changeset	735 self.vsds=vsds
73c4212ba5b3 Factored the minibatch-writing code into an iterator class inside DataSet bengioy@esprit.iro.umontreal.ca parents: 36 diff changeset	736 self.next_row=offset
38 d637ad8f7352 Finished first untested version of VStackedDataset bengioy@esprit.iro.umontreal.ca parents: 37 diff changeset	737 self.next_dataset_index,self.next_dataset_row=self.vsds.locate_row(offset)
37 73c4212ba5b3 Factored the minibatch-writing code into an iterator class inside DataSet bengioy@esprit.iro.umontreal.ca parents: 36 diff changeset	738 self.current_iterator,self.n_left_at_the_end_of_ds,self.n_left_in_mb= \
73c4212ba5b3 Factored the minibatch-writing code into an iterator class inside DataSet bengioy@esprit.iro.umontreal.ca parents: 36 diff changeset	739 self.next_iterator(vsds.datasets[0],offset,n_batches)
73c4212ba5b3 Factored the minibatch-writing code into an iterator class inside DataSet bengioy@esprit.iro.umontreal.ca parents: 36 diff changeset	740
73c4212ba5b3 Factored the minibatch-writing code into an iterator class inside DataSet bengioy@esprit.iro.umontreal.ca parents: 36 diff changeset	741 def next_iterator(self,dataset,starting_offset,batches_left):
73c4212ba5b3 Factored the minibatch-writing code into an iterator class inside DataSet bengioy@esprit.iro.umontreal.ca parents: 36 diff changeset	742 L=len(dataset)
73c4212ba5b3 Factored the minibatch-writing code into an iterator class inside DataSet bengioy@esprit.iro.umontreal.ca parents: 36 diff changeset	743 ds_nbatches = (L-starting_offset)/minibatch_size
73c4212ba5b3 Factored the minibatch-writing code into an iterator class inside DataSet bengioy@esprit.iro.umontreal.ca parents: 36 diff changeset	744 if batches_left is not None:
73c4212ba5b3 Factored the minibatch-writing code into an iterator class inside DataSet bengioy@esprit.iro.umontreal.ca parents: 36 diff changeset	745 ds_nbatches = max(batches_left,ds_nbatches)
73c4212ba5b3 Factored the minibatch-writing code into an iterator class inside DataSet bengioy@esprit.iro.umontreal.ca parents: 36 diff changeset	746 if minibatch_size>L:
73c4212ba5b3 Factored the minibatch-writing code into an iterator class inside DataSet bengioy@esprit.iro.umontreal.ca parents: 36 diff changeset	747 ds_minibatch_size=L
73c4212ba5b3 Factored the minibatch-writing code into an iterator class inside DataSet bengioy@esprit.iro.umontreal.ca parents: 36 diff changeset	748 n_left_in_mb=minibatch_size-L
38 d637ad8f7352 Finished first untested version of VStackedDataset bengioy@esprit.iro.umontreal.ca parents: 37 diff changeset	749 ds_nbatches=1
d637ad8f7352 Finished first untested version of VStackedDataset bengioy@esprit.iro.umontreal.ca parents: 37 diff changeset	750 else:
d637ad8f7352 Finished first untested version of VStackedDataset bengioy@esprit.iro.umontreal.ca parents: 37 diff changeset	751 n_left_in_mb=0
37 73c4212ba5b3 Factored the minibatch-writing code into an iterator class inside DataSet bengioy@esprit.iro.umontreal.ca parents: 36 diff changeset	752 return dataset.minibatches(fieldnames,minibatch_size,ds_nbatches,starting_offset), \
73c4212ba5b3 Factored the minibatch-writing code into an iterator class inside DataSet bengioy@esprit.iro.umontreal.ca parents: 36 diff changeset	753 L-(starting_offset+ds_nbatches*minibatch_size), n_left_in_mb
73c4212ba5b3 Factored the minibatch-writing code into an iterator class inside DataSet bengioy@esprit.iro.umontreal.ca parents: 36 diff changeset	754
73c4212ba5b3 Factored the minibatch-writing code into an iterator class inside DataSet bengioy@esprit.iro.umontreal.ca parents: 36 diff changeset	755 def move_to_next_dataset(self):
38 d637ad8f7352 Finished first untested version of VStackedDataset bengioy@esprit.iro.umontreal.ca parents: 37 diff changeset	756 if self.n_left_at_the_end_of_ds>0:
d637ad8f7352 Finished first untested version of VStackedDataset bengioy@esprit.iro.umontreal.ca parents: 37 diff changeset	757 self.current_iterator,self.n_left_at_the_end_of_ds,self.n_left_in_mb= \
d637ad8f7352 Finished first untested version of VStackedDataset bengioy@esprit.iro.umontreal.ca parents: 37 diff changeset	758 self.next_iterator(vsds.datasets[self.next_dataset_index],
d637ad8f7352 Finished first untested version of VStackedDataset bengioy@esprit.iro.umontreal.ca parents: 37 diff changeset	759 self.n_left_at_the_end_of_ds,1)
d637ad8f7352 Finished first untested version of VStackedDataset bengioy@esprit.iro.umontreal.ca parents: 37 diff changeset	760 else:
d637ad8f7352 Finished first untested version of VStackedDataset bengioy@esprit.iro.umontreal.ca parents: 37 diff changeset	761 self.next_dataset_index +=1
d637ad8f7352 Finished first untested version of VStackedDataset bengioy@esprit.iro.umontreal.ca parents: 37 diff changeset	762 if self.next_dataset_index==len(self.vsds.datasets):
d637ad8f7352 Finished first untested version of VStackedDataset bengioy@esprit.iro.umontreal.ca parents: 37 diff changeset	763 self.next_dataset_index = 0
d637ad8f7352 Finished first untested version of VStackedDataset bengioy@esprit.iro.umontreal.ca parents: 37 diff changeset	764 self.current_iterator,self.n_left_at_the_end_of_ds,self.n_left_in_mb= \
d637ad8f7352 Finished first untested version of VStackedDataset bengioy@esprit.iro.umontreal.ca parents: 37 diff changeset	765 self.next_iterator(vsds.datasets[self.next_dataset_index],starting_offset,n_batches)
37 73c4212ba5b3 Factored the minibatch-writing code into an iterator class inside DataSet bengioy@esprit.iro.umontreal.ca parents: 36 diff changeset	766
73c4212ba5b3 Factored the minibatch-writing code into an iterator class inside DataSet bengioy@esprit.iro.umontreal.ca parents: 36 diff changeset	767 def __iter__(self):
73c4212ba5b3 Factored the minibatch-writing code into an iterator class inside DataSet bengioy@esprit.iro.umontreal.ca parents: 36 diff changeset	768 return self
73c4212ba5b3 Factored the minibatch-writing code into an iterator class inside DataSet bengioy@esprit.iro.umontreal.ca parents: 36 diff changeset	769
73c4212ba5b3 Factored the minibatch-writing code into an iterator class inside DataSet bengioy@esprit.iro.umontreal.ca parents: 36 diff changeset	770 def next(self):
73c4212ba5b3 Factored the minibatch-writing code into an iterator class inside DataSet bengioy@esprit.iro.umontreal.ca parents: 36 diff changeset	771 dataset=self.vsds.datasets[self.next_dataset_index]
73c4212ba5b3 Factored the minibatch-writing code into an iterator class inside DataSet bengioy@esprit.iro.umontreal.ca parents: 36 diff changeset	772 mb = self.next_iterator.next()
73c4212ba5b3 Factored the minibatch-writing code into an iterator class inside DataSet bengioy@esprit.iro.umontreal.ca parents: 36 diff changeset	773 if self.n_left_in_mb:
73c4212ba5b3 Factored the minibatch-writing code into an iterator class inside DataSet bengioy@esprit.iro.umontreal.ca parents: 36 diff changeset	774 extra_mb = []
73c4212ba5b3 Factored the minibatch-writing code into an iterator class inside DataSet bengioy@esprit.iro.umontreal.ca parents: 36 diff changeset	775 while self.n_left_in_mb>0:
73c4212ba5b3 Factored the minibatch-writing code into an iterator class inside DataSet bengioy@esprit.iro.umontreal.ca parents: 36 diff changeset	776 self.move_to_next_dataset()
73c4212ba5b3 Factored the minibatch-writing code into an iterator class inside DataSet bengioy@esprit.iro.umontreal.ca parents: 36 diff changeset	777 extra_mb.append(self.next_iterator.next())
40 88fd1cce08b9 replaced infinity for length by raise UnboundedDataSet and use & instead of + to concatenate datasets bengioy@esprit.iro.umontreal.ca parents: 39 diff changeset	778 examples = Example(names,
88fd1cce08b9 replaced infinity for length by raise UnboundedDataSet and use & instead of + to concatenate datasets bengioy@esprit.iro.umontreal.ca parents: 39 diff changeset	779 [dataset.valuesVStack(name,
88fd1cce08b9 replaced infinity for length by raise UnboundedDataSet and use & instead of + to concatenate datasets bengioy@esprit.iro.umontreal.ca parents: 39 diff changeset	780 [mb[name]]+[b[name] for b in extra_mb])
88fd1cce08b9 replaced infinity for length by raise UnboundedDataSet and use & instead of + to concatenate datasets bengioy@esprit.iro.umontreal.ca parents: 39 diff changeset	781 for name in fieldnames])
88fd1cce08b9 replaced infinity for length by raise UnboundedDataSet and use & instead of + to concatenate datasets bengioy@esprit.iro.umontreal.ca parents: 39 diff changeset	782 mb = DataSetFields(MinibatchDataSet(examples),fieldnames)
88fd1cce08b9 replaced infinity for length by raise UnboundedDataSet and use & instead of + to concatenate datasets bengioy@esprit.iro.umontreal.ca parents: 39 diff changeset	783
37 73c4212ba5b3 Factored the minibatch-writing code into an iterator class inside DataSet bengioy@esprit.iro.umontreal.ca parents: 36 diff changeset	784 self.next_row+=minibatch_size
38 d637ad8f7352 Finished first untested version of VStackedDataset bengioy@esprit.iro.umontreal.ca parents: 37 diff changeset	785 self.next_dataset_row+=minibatch_size
d637ad8f7352 Finished first untested version of VStackedDataset bengioy@esprit.iro.umontreal.ca parents: 37 diff changeset	786 if self.next_row+minibatch_size>len(dataset):
d637ad8f7352 Finished first untested version of VStackedDataset bengioy@esprit.iro.umontreal.ca parents: 37 diff changeset	787 self.move_to_next_dataset()
40 88fd1cce08b9 replaced infinity for length by raise UnboundedDataSet and use & instead of + to concatenate datasets bengioy@esprit.iro.umontreal.ca parents: 39 diff changeset	788 return
37 73c4212ba5b3 Factored the minibatch-writing code into an iterator class inside DataSet bengioy@esprit.iro.umontreal.ca parents: 36 diff changeset	789
41 283e95c15b47 Added ArrayDataSet bengioy@grenat.iro.umontreal.ca parents: 40 diff changeset	790 class ArrayFieldsDataSet(DataSet):
283e95c15b47 Added ArrayDataSet bengioy@grenat.iro.umontreal.ca parents: 40 diff changeset	791 """
283e95c15b47 Added ArrayDataSet bengioy@grenat.iro.umontreal.ca parents: 40 diff changeset	792 Virtual super-class of datasets whose field values are numpy array,
283e95c15b47 Added ArrayDataSet bengioy@grenat.iro.umontreal.ca parents: 40 diff changeset	793 thus defining valuesHStack and valuesVStack for sub-classes.
283e95c15b47 Added ArrayDataSet bengioy@grenat.iro.umontreal.ca parents: 40 diff changeset	794 """
283e95c15b47 Added ArrayDataSet bengioy@grenat.iro.umontreal.ca parents: 40 diff changeset	795 def __init__(self,description=None,field_types=None):
283e95c15b47 Added ArrayDataSet bengioy@grenat.iro.umontreal.ca parents: 40 diff changeset	796 DataSet.__init__(self,description,field_types)
283e95c15b47 Added ArrayDataSet bengioy@grenat.iro.umontreal.ca parents: 40 diff changeset	797 def valuesHStack(self,fieldnames,fieldvalues):
283e95c15b47 Added ArrayDataSet bengioy@grenat.iro.umontreal.ca parents: 40 diff changeset	798 """Concatenate field values horizontally, e.g. two vectors
283e95c15b47 Added ArrayDataSet bengioy@grenat.iro.umontreal.ca parents: 40 diff changeset	799 become a longer vector, two matrices become a wider matrix, etc."""
283e95c15b47 Added ArrayDataSet bengioy@grenat.iro.umontreal.ca parents: 40 diff changeset	800 return numpy.hstack(fieldvalues)
283e95c15b47 Added ArrayDataSet bengioy@grenat.iro.umontreal.ca parents: 40 diff changeset	801 def valuesVStack(self,fieldname,values):
283e95c15b47 Added ArrayDataSet bengioy@grenat.iro.umontreal.ca parents: 40 diff changeset	802 """Concatenate field values vertically, e.g. two vectors
283e95c15b47 Added ArrayDataSet bengioy@grenat.iro.umontreal.ca parents: 40 diff changeset	803 become a two-row matrix, two matrices become a longer matrix, etc."""
283e95c15b47 Added ArrayDataSet bengioy@grenat.iro.umontreal.ca parents: 40 diff changeset	804 return numpy.vstack(values)
283e95c15b47 Added ArrayDataSet bengioy@grenat.iro.umontreal.ca parents: 40 diff changeset	805
283e95c15b47 Added ArrayDataSet bengioy@grenat.iro.umontreal.ca parents: 40 diff changeset	806 class ArrayDataSet(ArrayFieldsDataSet):
283e95c15b47 Added ArrayDataSet bengioy@grenat.iro.umontreal.ca parents: 40 diff changeset	807 """
283e95c15b47 Added ArrayDataSet bengioy@grenat.iro.umontreal.ca parents: 40 diff changeset	808 An ArrayDataSet stores the fields as groups of columns in a numpy tensor,
283e95c15b47 Added ArrayDataSet bengioy@grenat.iro.umontreal.ca parents: 40 diff changeset	809 whose first axis iterates over examples, second axis determines fields.
283e95c15b47 Added ArrayDataSet bengioy@grenat.iro.umontreal.ca parents: 40 diff changeset	810 If the underlying array is N-dimensional (has N axes), then the field
283e95c15b47 Added ArrayDataSet bengioy@grenat.iro.umontreal.ca parents: 40 diff changeset	811 values are (N-2)-dimensional objects (i.e. ordinary numbers if N=2).
283e95c15b47 Added ArrayDataSet bengioy@grenat.iro.umontreal.ca parents: 40 diff changeset	812 """
283e95c15b47 Added ArrayDataSet bengioy@grenat.iro.umontreal.ca parents: 40 diff changeset	813
283e95c15b47 Added ArrayDataSet bengioy@grenat.iro.umontreal.ca parents: 40 diff changeset	814 """
283e95c15b47 Added ArrayDataSet bengioy@grenat.iro.umontreal.ca parents: 40 diff changeset	815 Construct an ArrayDataSet from the underlying numpy array (data) and
283e95c15b47 Added ArrayDataSet bengioy@grenat.iro.umontreal.ca parents: 40 diff changeset	816 a map from fieldnames to field columns. The columns of a field are specified
283e95c15b47 Added ArrayDataSet bengioy@grenat.iro.umontreal.ca parents: 40 diff changeset	817 using the standard arguments for indexing/slicing: integer for a column index,
283e95c15b47 Added ArrayDataSet bengioy@grenat.iro.umontreal.ca parents: 40 diff changeset	818 slice for an interval of columns (with possible stride), or iterable of column indices.
283e95c15b47 Added ArrayDataSet bengioy@grenat.iro.umontreal.ca parents: 40 diff changeset	819 """
283e95c15b47 Added ArrayDataSet bengioy@grenat.iro.umontreal.ca parents: 40 diff changeset	820 def __init__(self, data_array, fields_names_columns):
283e95c15b47 Added ArrayDataSet bengioy@grenat.iro.umontreal.ca parents: 40 diff changeset	821 self.data=data_array
283e95c15b47 Added ArrayDataSet bengioy@grenat.iro.umontreal.ca parents: 40 diff changeset	822 self.fields=fields_names_columns
283e95c15b47 Added ArrayDataSet bengioy@grenat.iro.umontreal.ca parents: 40 diff changeset	823
283e95c15b47 Added ArrayDataSet bengioy@grenat.iro.umontreal.ca parents: 40 diff changeset	824 # check consistency and complete slices definitions
283e95c15b47 Added ArrayDataSet bengioy@grenat.iro.umontreal.ca parents: 40 diff changeset	825 for fieldname, fieldcolumns in self.fields.items():
283e95c15b47 Added ArrayDataSet bengioy@grenat.iro.umontreal.ca parents: 40 diff changeset	826 if type(fieldcolumns) is int:
283e95c15b47 Added ArrayDataSet bengioy@grenat.iro.umontreal.ca parents: 40 diff changeset	827 assert fieldcolumns>=0 and fieldcolumns<data_array.shape[1]
283e95c15b47 Added ArrayDataSet bengioy@grenat.iro.umontreal.ca parents: 40 diff changeset	828 elif type(fieldcolumns) is slice:
283e95c15b47 Added ArrayDataSet bengioy@grenat.iro.umontreal.ca parents: 40 diff changeset	829 start,step=None,None
283e95c15b47 Added ArrayDataSet bengioy@grenat.iro.umontreal.ca parents: 40 diff changeset	830 if not fieldcolumns.start:
283e95c15b47 Added ArrayDataSet bengioy@grenat.iro.umontreal.ca parents: 40 diff changeset	831 start=0
283e95c15b47 Added ArrayDataSet bengioy@grenat.iro.umontreal.ca parents: 40 diff changeset	832 if not fieldcolumns.step:
283e95c15b47 Added ArrayDataSet bengioy@grenat.iro.umontreal.ca parents: 40 diff changeset	833 step=1
283e95c15b47 Added ArrayDataSet bengioy@grenat.iro.umontreal.ca parents: 40 diff changeset	834 if start or step:
283e95c15b47 Added ArrayDataSet bengioy@grenat.iro.umontreal.ca parents: 40 diff changeset	835 self.fields[fieldname]=slice(start,fieldcolumns.stop,step)
283e95c15b47 Added ArrayDataSet bengioy@grenat.iro.umontreal.ca parents: 40 diff changeset	836 elif hasattr(fieldcolumns,"__iter__"): # something like a list
283e95c15b47 Added ArrayDataSet bengioy@grenat.iro.umontreal.ca parents: 40 diff changeset	837 for i in fieldcolumns:
283e95c15b47 Added ArrayDataSet bengioy@grenat.iro.umontreal.ca parents: 40 diff changeset	838 assert i>=0 and i<data_array.shape[1]
283e95c15b47 Added ArrayDataSet bengioy@grenat.iro.umontreal.ca parents: 40 diff changeset	839
283e95c15b47 Added ArrayDataSet bengioy@grenat.iro.umontreal.ca parents: 40 diff changeset	840 def fieldNames(self):
283e95c15b47 Added ArrayDataSet bengioy@grenat.iro.umontreal.ca parents: 40 diff changeset	841 return self.fields.keys()
283e95c15b47 Added ArrayDataSet bengioy@grenat.iro.umontreal.ca parents: 40 diff changeset	842
283e95c15b47 Added ArrayDataSet bengioy@grenat.iro.umontreal.ca parents: 40 diff changeset	843 def __len__(self):
283e95c15b47 Added ArrayDataSet bengioy@grenat.iro.umontreal.ca parents: 40 diff changeset	844 return len(self.data)
283e95c15b47 Added ArrayDataSet bengioy@grenat.iro.umontreal.ca parents: 40 diff changeset	845
283e95c15b47 Added ArrayDataSet bengioy@grenat.iro.umontreal.ca parents: 40 diff changeset	846 #def __getitem__(self,i):
283e95c15b47 Added ArrayDataSet bengioy@grenat.iro.umontreal.ca parents: 40 diff changeset	847 # """More efficient implementation than the default"""
283e95c15b47 Added ArrayDataSet bengioy@grenat.iro.umontreal.ca parents: 40 diff changeset	848
283e95c15b47 Added ArrayDataSet bengioy@grenat.iro.umontreal.ca parents: 40 diff changeset	849 def minibatches_nowrap(self,fieldnames,minibatch_size,n_batches,offset):
283e95c15b47 Added ArrayDataSet bengioy@grenat.iro.umontreal.ca parents: 40 diff changeset	850 class Iterator(LookupList): # store the result in the lookup-list values
283e95c15b47 Added ArrayDataSet bengioy@grenat.iro.umontreal.ca parents: 40 diff changeset	851 def __init__(dataset,fieldnames,minibatch_size,n_batches,offset):
283e95c15b47 Added ArrayDataSet bengioy@grenat.iro.umontreal.ca parents: 40 diff changeset	852 if fieldnames is None: fieldnames = dataset.fieldNames()
283e95c15b47 Added ArrayDataSet bengioy@grenat.iro.umontreal.ca parents: 40 diff changeset	853 LookupList.__init__(self,fieldnames,[0]*len(fieldnames))
283e95c15b47 Added ArrayDataSet bengioy@grenat.iro.umontreal.ca parents: 40 diff changeset	854 self.dataset=dataset
283e95c15b47 Added ArrayDataSet bengioy@grenat.iro.umontreal.ca parents: 40 diff changeset	855 self.minibatch_size=minibatch_size
283e95c15b47 Added ArrayDataSet bengioy@grenat.iro.umontreal.ca parents: 40 diff changeset	856 assert offset>=0 and offset<len(dataset.data)
283e95c15b47 Added ArrayDataSet bengioy@grenat.iro.umontreal.ca parents: 40 diff changeset	857 assert offset+minibatch_size<len(dataset.data)
283e95c15b47 Added ArrayDataSet bengioy@grenat.iro.umontreal.ca parents: 40 diff changeset	858 self.current=offset
283e95c15b47 Added ArrayDataSet bengioy@grenat.iro.umontreal.ca parents: 40 diff changeset	859 def __iter__(self):
283e95c15b47 Added ArrayDataSet bengioy@grenat.iro.umontreal.ca parents: 40 diff changeset	860 return self
283e95c15b47 Added ArrayDataSet bengioy@grenat.iro.umontreal.ca parents: 40 diff changeset	861 def next(self):
283e95c15b47 Added ArrayDataSet bengioy@grenat.iro.umontreal.ca parents: 40 diff changeset	862 sub_data = self.dataset.data[self.current:self.current+self.minibatch_size]
283e95c15b47 Added ArrayDataSet bengioy@grenat.iro.umontreal.ca parents: 40 diff changeset	863 self._values = [sub_data[:,self.dataset.fields[f]] for f in self._names]
283e95c15b47 Added ArrayDataSet bengioy@grenat.iro.umontreal.ca parents: 40 diff changeset	864 return self
37 73c4212ba5b3 Factored the minibatch-writing code into an iterator class inside DataSet bengioy@esprit.iro.umontreal.ca parents: 36 diff changeset	865
41 283e95c15b47 Added ArrayDataSet bengioy@grenat.iro.umontreal.ca parents: 40 diff changeset	866 return Iterator(self,fieldnames,minibatch_size,n_batches,offset)
283e95c15b47 Added ArrayDataSet bengioy@grenat.iro.umontreal.ca parents: 40 diff changeset	867
23 526e192b0699 Working on ApplyFunctionDataSet, added constraint that bengioy@esprit.iro.umontreal.ca parents: 22 diff changeset	868 def supervised_learning_dataset(src_dataset,input_fields,target_fields,weight_field=None):
526e192b0699 Working on ApplyFunctionDataSet, added constraint that bengioy@esprit.iro.umontreal.ca parents: 22 diff changeset	869 """
526e192b0699 Working on ApplyFunctionDataSet, added constraint that bengioy@esprit.iro.umontreal.ca parents: 22 diff changeset	870 Wraps an arbitrary DataSet into one for supervised learning tasks by forcing the
526e192b0699 Working on ApplyFunctionDataSet, added constraint that bengioy@esprit.iro.umontreal.ca parents: 22 diff changeset	871 user to define a set of fields as the 'input' field and a set of fields
526e192b0699 Working on ApplyFunctionDataSet, added constraint that bengioy@esprit.iro.umontreal.ca parents: 22 diff changeset	872 as the 'target' field. Optionally, a single weight_field can also be defined.
526e192b0699 Working on ApplyFunctionDataSet, added constraint that bengioy@esprit.iro.umontreal.ca parents: 22 diff changeset	873 """
526e192b0699 Working on ApplyFunctionDataSet, added constraint that bengioy@esprit.iro.umontreal.ca parents: 22 diff changeset	874 args = ((input_fields,'input'),(output_fields,'target'))
526e192b0699 Working on ApplyFunctionDataSet, added constraint that bengioy@esprit.iro.umontreal.ca parents: 22 diff changeset	875 if weight_field: args+=(([weight_field],'weight'))
36 438440ba0627 Rewriting dataset.py completely bengioy@zircon.iro.umontreal.ca parents: 29 diff changeset	876 return src_dataset.merge_fields(*args)
23 526e192b0699 Working on ApplyFunctionDataSet, added constraint that bengioy@esprit.iro.umontreal.ca parents: 22 diff changeset	877
526e192b0699 Working on ApplyFunctionDataSet, added constraint that bengioy@esprit.iro.umontreal.ca parents: 22 diff changeset	878
526e192b0699 Working on ApplyFunctionDataSet, added constraint that bengioy@esprit.iro.umontreal.ca parents: 22 diff changeset	879
526e192b0699 Working on ApplyFunctionDataSet, added constraint that bengioy@esprit.iro.umontreal.ca parents: 22 diff changeset	880

Mercurial > pylearn

annotate dataset.py @ 41:283e95c15b47