changeset 92:708ad2abebdd

Petit script primitif utilise pour calculer la proportion des trois classes dans Nist train et test.
author SylvainPL <sylvain.pannetier.lebeuf@umontreal.ca>
date Thu, 11 Feb 2010 10:43:22 -0500
parents 6696391273ab
children 7054d7afb948
files scripts/CalcPropNist.py
diffstat 1 files changed, 61 insertions(+), 0 deletions(-) [+]
line wrap: on
line diff
--- /dev/null	Thu Jan 01 00:00:00 1970 +0000
+++ b/scripts/CalcPropNist.py	Thu Feb 11 10:43:22 2010 -0500
@@ -0,0 +1,61 @@
+#!/usr/bin/python
+# coding: utf-8
+
+'''
+Script qui calcule la proportion de chiffres, lettres minuscules et lettres majuscules
+dans NIST train et NIST test.
+
+Sylvain Pannetier Lebeuf dans le cadre de IFT6266, hiver 2010
+
+'''
+
+from pylearn.io import filetensor as ft
+
+#f1 = open('/home/sylvain/Dropbox/Msc/IFT6266/donnees/all_train_labels.ft')
+f1 = open('/data/lisa/data/nist/by_class/all/all_train_labels.ft')
+train = ft.read(f1)
+#f2 = open('/home/sylvain/Dropbox/Msc/IFT6266/donnees/all_test_labels.ft')
+f2 = open('/data/lisa/data/nist/by_class/all/all_test_labels.ft')
+test = ft.read(f2)
+f1.close()
+f2.close()
+
+#Les 6 variables
+train_c=0
+train_min=0
+train_maj=0
+
+test_c=0
+test_min=0
+test_maj=0
+
+classe=0   #variable utilisee pour voir la classe presentement regardee
+#Calcul pour le train_set
+for i in xrange(len(train)):
+    classe=train[i]
+    if classe < 10:
+        train_c += 1
+    elif classe < 36:
+        train_maj += 1
+    elif classe < 62:
+        train_min += 1
+
+for j in xrange(len(test)):
+    classe=test[j]
+    if classe < 10:
+        test_c += 1
+    elif classe < 36:
+        test_maj += 1
+    elif classe < 62:
+        test_min += 1
+print "Train set:",len(train),"\nchiffres:",float(train_c)/len(train),"\tmajuscules:",\
+float(train_maj)/len(train),"\tminuscules:",float(train_min)/len(train)
+
+print "\nTest set:",len(test),"\nchiffres:",float(test_c)/len(test),"\tmajuscules:",\
+float(test_maj)/len(test),"\tminuscules:",float(test_min)/len(test)
+
+if test_maj+test_min+test_c != len(test):
+    print "probleme avec le test, des donnees ne sont pas etiquetees"
+    
+if train_maj+train_min+train_c != len(train):
+    print "probleme avec le train, des donnees ne sont pas etiquetees"