Mercurial > ift6266
annotate scripts/nist_divide.py @ 595:da46a62ce402
submitted JMLR pdf
author | Yoshua Bengio <bengioy@iro.umontreal.ca> |
---|---|
date | Tue, 05 Oct 2010 15:07:33 -0400 |
parents | 2b6a28e4cadc |
children |
rev | line source |
---|---|
60
d508f5a8acd0
Script pour creer ensembles train, valid et test NIST pur
boulanni <nicolas_boulanger@hotmail.com>
parents:
diff
changeset
|
1 #!/usr/bin/env python |
d508f5a8acd0
Script pour creer ensembles train, valid et test NIST pur
boulanni <nicolas_boulanger@hotmail.com>
parents:
diff
changeset
|
2 |
d508f5a8acd0
Script pour creer ensembles train, valid et test NIST pur
boulanni <nicolas_boulanger@hotmail.com>
parents:
diff
changeset
|
3 ''' |
d508f5a8acd0
Script pour creer ensembles train, valid et test NIST pur
boulanni <nicolas_boulanger@hotmail.com>
parents:
diff
changeset
|
4 creation des ensembles train, valid et test NIST pur |
d508f5a8acd0
Script pour creer ensembles train, valid et test NIST pur
boulanni <nicolas_boulanger@hotmail.com>
parents:
diff
changeset
|
5 ensemble test est pris tel quel |
182
2b6a28e4cadc
J'ai reséparé NIST/OCR purs pour avoir des ensembles de test et de validation de 80000 plutôt que 20000, comme on a discuté au cours
boulanni <nicolas_boulanger@hotmail.com>
parents:
60
diff
changeset
|
6 ensemble valid est trainorig[:80000] |
2b6a28e4cadc
J'ai reséparé NIST/OCR purs pour avoir des ensembles de test et de validation de 80000 plutôt que 20000, comme on a discuté au cours
boulanni <nicolas_boulanger@hotmail.com>
parents:
60
diff
changeset
|
7 ensemble train est trainorig[80000:] |
60
d508f5a8acd0
Script pour creer ensembles train, valid et test NIST pur
boulanni <nicolas_boulanger@hotmail.com>
parents:
diff
changeset
|
8 trainorig est deja shuffled |
d508f5a8acd0
Script pour creer ensembles train, valid et test NIST pur
boulanni <nicolas_boulanger@hotmail.com>
parents:
diff
changeset
|
9 ''' |
d508f5a8acd0
Script pour creer ensembles train, valid et test NIST pur
boulanni <nicolas_boulanger@hotmail.com>
parents:
diff
changeset
|
10 |
d508f5a8acd0
Script pour creer ensembles train, valid et test NIST pur
boulanni <nicolas_boulanger@hotmail.com>
parents:
diff
changeset
|
11 from pylearn.io import filetensor as ft |
d508f5a8acd0
Script pour creer ensembles train, valid et test NIST pur
boulanni <nicolas_boulanger@hotmail.com>
parents:
diff
changeset
|
12 import numpy, os |
d508f5a8acd0
Script pour creer ensembles train, valid et test NIST pur
boulanni <nicolas_boulanger@hotmail.com>
parents:
diff
changeset
|
13 |
d508f5a8acd0
Script pour creer ensembles train, valid et test NIST pur
boulanni <nicolas_boulanger@hotmail.com>
parents:
diff
changeset
|
14 dir1 = "/data/lisa/data/nist/by_class/all/" |
d508f5a8acd0
Script pour creer ensembles train, valid et test NIST pur
boulanni <nicolas_boulanger@hotmail.com>
parents:
diff
changeset
|
15 dir2 = "/data/lisa/data/ift6266h10/" |
d508f5a8acd0
Script pour creer ensembles train, valid et test NIST pur
boulanni <nicolas_boulanger@hotmail.com>
parents:
diff
changeset
|
16 |
d508f5a8acd0
Script pour creer ensembles train, valid et test NIST pur
boulanni <nicolas_boulanger@hotmail.com>
parents:
diff
changeset
|
17 os.system("cp %s %s" % (dir1 + "all_test_data.ft", dir2 + "test_data.ft")) |
d508f5a8acd0
Script pour creer ensembles train, valid et test NIST pur
boulanni <nicolas_boulanger@hotmail.com>
parents:
diff
changeset
|
18 os.system("cp %s %s" % (dir1 + "all_test_labels.ft", dir2 + "test_labels.ft")) |
d508f5a8acd0
Script pour creer ensembles train, valid et test NIST pur
boulanni <nicolas_boulanger@hotmail.com>
parents:
diff
changeset
|
19 |
d508f5a8acd0
Script pour creer ensembles train, valid et test NIST pur
boulanni <nicolas_boulanger@hotmail.com>
parents:
diff
changeset
|
20 f = open(dir1 + "/all_train_data.ft") |
d508f5a8acd0
Script pour creer ensembles train, valid et test NIST pur
boulanni <nicolas_boulanger@hotmail.com>
parents:
diff
changeset
|
21 d = ft.read(f) |
d508f5a8acd0
Script pour creer ensembles train, valid et test NIST pur
boulanni <nicolas_boulanger@hotmail.com>
parents:
diff
changeset
|
22 f = open(dir2 + "valid_data.ft", 'wb') |
182
2b6a28e4cadc
J'ai reséparé NIST/OCR purs pour avoir des ensembles de test et de validation de 80000 plutôt que 20000, comme on a discuté au cours
boulanni <nicolas_boulanger@hotmail.com>
parents:
60
diff
changeset
|
23 ft.write(f, d[:80000]) |
60
d508f5a8acd0
Script pour creer ensembles train, valid et test NIST pur
boulanni <nicolas_boulanger@hotmail.com>
parents:
diff
changeset
|
24 f = open(dir2 + "train_data.ft", 'wb') |
182
2b6a28e4cadc
J'ai reséparé NIST/OCR purs pour avoir des ensembles de test et de validation de 80000 plutôt que 20000, comme on a discuté au cours
boulanni <nicolas_boulanger@hotmail.com>
parents:
60
diff
changeset
|
25 ft.write(f, d[80000:]) |
60
d508f5a8acd0
Script pour creer ensembles train, valid et test NIST pur
boulanni <nicolas_boulanger@hotmail.com>
parents:
diff
changeset
|
26 |
d508f5a8acd0
Script pour creer ensembles train, valid et test NIST pur
boulanni <nicolas_boulanger@hotmail.com>
parents:
diff
changeset
|
27 f = open(dir1 + "/all_train_labels.ft") |
d508f5a8acd0
Script pour creer ensembles train, valid et test NIST pur
boulanni <nicolas_boulanger@hotmail.com>
parents:
diff
changeset
|
28 d = ft.read(f) |
d508f5a8acd0
Script pour creer ensembles train, valid et test NIST pur
boulanni <nicolas_boulanger@hotmail.com>
parents:
diff
changeset
|
29 f = open(dir2 + "valid_labels.ft", 'wb') |
182
2b6a28e4cadc
J'ai reséparé NIST/OCR purs pour avoir des ensembles de test et de validation de 80000 plutôt que 20000, comme on a discuté au cours
boulanni <nicolas_boulanger@hotmail.com>
parents:
60
diff
changeset
|
30 ft.write(f, d[:80000]) |
60
d508f5a8acd0
Script pour creer ensembles train, valid et test NIST pur
boulanni <nicolas_boulanger@hotmail.com>
parents:
diff
changeset
|
31 f = open(dir2 + "train_labels.ft", 'wb') |
182
2b6a28e4cadc
J'ai reséparé NIST/OCR purs pour avoir des ensembles de test et de validation de 80000 plutôt que 20000, comme on a discuté au cours
boulanni <nicolas_boulanger@hotmail.com>
parents:
60
diff
changeset
|
32 ft.write(f, d[80000:]) |
60
d508f5a8acd0
Script pour creer ensembles train, valid et test NIST pur
boulanni <nicolas_boulanger@hotmail.com>
parents:
diff
changeset
|
33 |
d508f5a8acd0
Script pour creer ensembles train, valid et test NIST pur
boulanni <nicolas_boulanger@hotmail.com>
parents:
diff
changeset
|
34 for i in ["train", "valid", "test"]: |
d508f5a8acd0
Script pour creer ensembles train, valid et test NIST pur
boulanni <nicolas_boulanger@hotmail.com>
parents:
diff
changeset
|
35 os.chmod(dir2 + i + "_data.ft", 0744) |
d508f5a8acd0
Script pour creer ensembles train, valid et test NIST pur
boulanni <nicolas_boulanger@hotmail.com>
parents:
diff
changeset
|
36 os.chmod(dir2 + i + "_labels.ft", 0744) |
d508f5a8acd0
Script pour creer ensembles train, valid et test NIST pur
boulanni <nicolas_boulanger@hotmail.com>
parents:
diff
changeset
|
37 |
d508f5a8acd0
Script pour creer ensembles train, valid et test NIST pur
boulanni <nicolas_boulanger@hotmail.com>
parents:
diff
changeset
|
38 |
d508f5a8acd0
Script pour creer ensembles train, valid et test NIST pur
boulanni <nicolas_boulanger@hotmail.com>
parents:
diff
changeset
|
39 |