annotate scripts/nist_divide.py @ 239:42005ec87747

Mergé (manuellement) les changements de Sylvain pour utiliser le code de dataset d'Arnaud, à cette différence près que je n'utilse pas les givens. J'ai probablement une approche différente pour limiter la taille du dataset dans mon débuggage, aussi.
author fsavard
date Mon, 15 Mar 2010 18:30:21 -0400
parents 2b6a28e4cadc
children
rev   line source
60
d508f5a8acd0 Script pour creer ensembles train, valid et test NIST pur
boulanni <nicolas_boulanger@hotmail.com>
parents:
diff changeset
1 #!/usr/bin/env python
d508f5a8acd0 Script pour creer ensembles train, valid et test NIST pur
boulanni <nicolas_boulanger@hotmail.com>
parents:
diff changeset
2
d508f5a8acd0 Script pour creer ensembles train, valid et test NIST pur
boulanni <nicolas_boulanger@hotmail.com>
parents:
diff changeset
3 '''
d508f5a8acd0 Script pour creer ensembles train, valid et test NIST pur
boulanni <nicolas_boulanger@hotmail.com>
parents:
diff changeset
4 creation des ensembles train, valid et test NIST pur
d508f5a8acd0 Script pour creer ensembles train, valid et test NIST pur
boulanni <nicolas_boulanger@hotmail.com>
parents:
diff changeset
5 ensemble test est pris tel quel
182
2b6a28e4cadc J'ai reséparé NIST/OCR purs pour avoir des ensembles de test et de validation de 80000 plutôt que 20000, comme on a discuté au cours
boulanni <nicolas_boulanger@hotmail.com>
parents: 60
diff changeset
6 ensemble valid est trainorig[:80000]
2b6a28e4cadc J'ai reséparé NIST/OCR purs pour avoir des ensembles de test et de validation de 80000 plutôt que 20000, comme on a discuté au cours
boulanni <nicolas_boulanger@hotmail.com>
parents: 60
diff changeset
7 ensemble train est trainorig[80000:]
60
d508f5a8acd0 Script pour creer ensembles train, valid et test NIST pur
boulanni <nicolas_boulanger@hotmail.com>
parents:
diff changeset
8 trainorig est deja shuffled
d508f5a8acd0 Script pour creer ensembles train, valid et test NIST pur
boulanni <nicolas_boulanger@hotmail.com>
parents:
diff changeset
9 '''
d508f5a8acd0 Script pour creer ensembles train, valid et test NIST pur
boulanni <nicolas_boulanger@hotmail.com>
parents:
diff changeset
10
d508f5a8acd0 Script pour creer ensembles train, valid et test NIST pur
boulanni <nicolas_boulanger@hotmail.com>
parents:
diff changeset
11 from pylearn.io import filetensor as ft
d508f5a8acd0 Script pour creer ensembles train, valid et test NIST pur
boulanni <nicolas_boulanger@hotmail.com>
parents:
diff changeset
12 import numpy, os
d508f5a8acd0 Script pour creer ensembles train, valid et test NIST pur
boulanni <nicolas_boulanger@hotmail.com>
parents:
diff changeset
13
d508f5a8acd0 Script pour creer ensembles train, valid et test NIST pur
boulanni <nicolas_boulanger@hotmail.com>
parents:
diff changeset
14 dir1 = "/data/lisa/data/nist/by_class/all/"
d508f5a8acd0 Script pour creer ensembles train, valid et test NIST pur
boulanni <nicolas_boulanger@hotmail.com>
parents:
diff changeset
15 dir2 = "/data/lisa/data/ift6266h10/"
d508f5a8acd0 Script pour creer ensembles train, valid et test NIST pur
boulanni <nicolas_boulanger@hotmail.com>
parents:
diff changeset
16
d508f5a8acd0 Script pour creer ensembles train, valid et test NIST pur
boulanni <nicolas_boulanger@hotmail.com>
parents:
diff changeset
17 os.system("cp %s %s" % (dir1 + "all_test_data.ft", dir2 + "test_data.ft"))
d508f5a8acd0 Script pour creer ensembles train, valid et test NIST pur
boulanni <nicolas_boulanger@hotmail.com>
parents:
diff changeset
18 os.system("cp %s %s" % (dir1 + "all_test_labels.ft", dir2 + "test_labels.ft"))
d508f5a8acd0 Script pour creer ensembles train, valid et test NIST pur
boulanni <nicolas_boulanger@hotmail.com>
parents:
diff changeset
19
d508f5a8acd0 Script pour creer ensembles train, valid et test NIST pur
boulanni <nicolas_boulanger@hotmail.com>
parents:
diff changeset
20 f = open(dir1 + "/all_train_data.ft")
d508f5a8acd0 Script pour creer ensembles train, valid et test NIST pur
boulanni <nicolas_boulanger@hotmail.com>
parents:
diff changeset
21 d = ft.read(f)
d508f5a8acd0 Script pour creer ensembles train, valid et test NIST pur
boulanni <nicolas_boulanger@hotmail.com>
parents:
diff changeset
22 f = open(dir2 + "valid_data.ft", 'wb')
182
2b6a28e4cadc J'ai reséparé NIST/OCR purs pour avoir des ensembles de test et de validation de 80000 plutôt que 20000, comme on a discuté au cours
boulanni <nicolas_boulanger@hotmail.com>
parents: 60
diff changeset
23 ft.write(f, d[:80000])
60
d508f5a8acd0 Script pour creer ensembles train, valid et test NIST pur
boulanni <nicolas_boulanger@hotmail.com>
parents:
diff changeset
24 f = open(dir2 + "train_data.ft", 'wb')
182
2b6a28e4cadc J'ai reséparé NIST/OCR purs pour avoir des ensembles de test et de validation de 80000 plutôt que 20000, comme on a discuté au cours
boulanni <nicolas_boulanger@hotmail.com>
parents: 60
diff changeset
25 ft.write(f, d[80000:])
60
d508f5a8acd0 Script pour creer ensembles train, valid et test NIST pur
boulanni <nicolas_boulanger@hotmail.com>
parents:
diff changeset
26
d508f5a8acd0 Script pour creer ensembles train, valid et test NIST pur
boulanni <nicolas_boulanger@hotmail.com>
parents:
diff changeset
27 f = open(dir1 + "/all_train_labels.ft")
d508f5a8acd0 Script pour creer ensembles train, valid et test NIST pur
boulanni <nicolas_boulanger@hotmail.com>
parents:
diff changeset
28 d = ft.read(f)
d508f5a8acd0 Script pour creer ensembles train, valid et test NIST pur
boulanni <nicolas_boulanger@hotmail.com>
parents:
diff changeset
29 f = open(dir2 + "valid_labels.ft", 'wb')
182
2b6a28e4cadc J'ai reséparé NIST/OCR purs pour avoir des ensembles de test et de validation de 80000 plutôt que 20000, comme on a discuté au cours
boulanni <nicolas_boulanger@hotmail.com>
parents: 60
diff changeset
30 ft.write(f, d[:80000])
60
d508f5a8acd0 Script pour creer ensembles train, valid et test NIST pur
boulanni <nicolas_boulanger@hotmail.com>
parents:
diff changeset
31 f = open(dir2 + "train_labels.ft", 'wb')
182
2b6a28e4cadc J'ai reséparé NIST/OCR purs pour avoir des ensembles de test et de validation de 80000 plutôt que 20000, comme on a discuté au cours
boulanni <nicolas_boulanger@hotmail.com>
parents: 60
diff changeset
32 ft.write(f, d[80000:])
60
d508f5a8acd0 Script pour creer ensembles train, valid et test NIST pur
boulanni <nicolas_boulanger@hotmail.com>
parents:
diff changeset
33
d508f5a8acd0 Script pour creer ensembles train, valid et test NIST pur
boulanni <nicolas_boulanger@hotmail.com>
parents:
diff changeset
34 for i in ["train", "valid", "test"]:
d508f5a8acd0 Script pour creer ensembles train, valid et test NIST pur
boulanni <nicolas_boulanger@hotmail.com>
parents:
diff changeset
35 os.chmod(dir2 + i + "_data.ft", 0744)
d508f5a8acd0 Script pour creer ensembles train, valid et test NIST pur
boulanni <nicolas_boulanger@hotmail.com>
parents:
diff changeset
36 os.chmod(dir2 + i + "_labels.ft", 0744)
d508f5a8acd0 Script pour creer ensembles train, valid et test NIST pur
boulanni <nicolas_boulanger@hotmail.com>
parents:
diff changeset
37
d508f5a8acd0 Script pour creer ensembles train, valid et test NIST pur
boulanni <nicolas_boulanger@hotmail.com>
parents:
diff changeset
38
d508f5a8acd0 Script pour creer ensembles train, valid et test NIST pur
boulanni <nicolas_boulanger@hotmail.com>
parents:
diff changeset
39