pylearn: dataset.py comparison

comparison dataset.py @ 55:66619ce44497

Efficient implementation of getitem for ArrayDataSet

author	Yoshua Bengio <bengioy@iro.umontreal.ca>
date	Tue, 29 Apr 2008 15:05:12 -0400
parents	b6730f9a336d
children	1729ad44f175

comparison

equal deleted inserted replaced

-:718befdc8671
+:66619ce44497
 if type(i) in (int,slice,list):
 return DataSetFields(MinibatchDataSet(
 Example(self.fields.keys(),[field[i] for field in self.fields])),self.fields)
 if self.hasFields(i):
 return self.fields[i]
+assert i in self.__dict__ # else it means we are trying to access a non-existing property
 return self.__dict__[i]
 def fieldNames(self):
 return self.fields.keys()
 whose first axis iterates over examples, second axis determines fields.
 If the underlying array is N-dimensional (has N axes), then the field
 values are (N-2)-dimensional objects (i.e. ordinary numbers if N=2).
 """
-"""
-Construct an ArrayDataSet from the underlying numpy array (data) and
-a map (fields_columns) from fieldnames to field columns. The columns of a field are specified
-using the standard arguments for indexing/slicing: integer for a column index,
-slice for an interval of columns (with possible stride), or iterable of column indices.
-"""
 def __init__(self, data_array, fields_columns):
+"""
+Construct an ArrayDataSet from the underlying numpy array (data) and
+a map (fields_columns) from fieldnames to field columns. The columns of a field are specified
+using the standard arguments for indexing/slicing: integer for a column index,
+slice for an interval of columns (with possible stride), or iterable of column indices.
+"""
 self.data=data_array
 self.fields_columns=fields_columns
 # check consistency and complete slices definitions
 for fieldname, fieldcolumns in self.fields_columns.items():
 return self.fields_columns.keys()
 def __len__(self):
 return len(self.data)
-#def __getitem__(self,i):
+def __getitem__(self,i):
-#    """More efficient implementation than the default"""
+"""More efficient implementation than the default __getitem__"""
+fieldnames=self.fields_columns.keys()
+if type(i) is int:
+return Example(fieldnames,
+[self.data[i,self.fields_columns[f]] for f in fieldnames])
+if type(i) in (slice,list):
+return MinibatchDataSet(Example(fieldnames,
+[self.data[i,self.fields_columns[f]] for f in fieldnames]))
+# else check for a fieldname
+if self.hasFields(i):
+return Example([i],[self.data[self.fields_columns[i],:]])
+# else we are trying to access a property of the dataset
+assert i in self.__dict__ # else it means we are trying to access a non-existing property
+return self.__dict__[i]
 def minibatches_nowrap(self,fieldnames,minibatch_size,n_batches,offset):
 class ArrayDataSetIterator(object):
 def __init__(self,dataset,fieldnames,minibatch_size,n_batches,offset):
 if fieldnames is None: fieldnames = dataset.fieldNames()

Mercurial > pylearn

comparison dataset.py @ 55:66619ce44497