# HG changeset patch # User SylvainPL # Date 1265903002 18000 # Node ID 708ad2abebdd922c3471f23a96e62b94fb24907c # Parent 6696391273aba7f98509babdbdc9aff47f2d31c2 Petit script primitif utilise pour calculer la proportion des trois classes dans Nist train et test. diff -r 6696391273ab -r 708ad2abebdd scripts/CalcPropNist.py --- /dev/null Thu Jan 01 00:00:00 1970 +0000 +++ b/scripts/CalcPropNist.py Thu Feb 11 10:43:22 2010 -0500 @@ -0,0 +1,61 @@ +#!/usr/bin/python +# coding: utf-8 + +''' +Script qui calcule la proportion de chiffres, lettres minuscules et lettres majuscules +dans NIST train et NIST test. + +Sylvain Pannetier Lebeuf dans le cadre de IFT6266, hiver 2010 + +''' + +from pylearn.io import filetensor as ft + +#f1 = open('/home/sylvain/Dropbox/Msc/IFT6266/donnees/all_train_labels.ft') +f1 = open('/data/lisa/data/nist/by_class/all/all_train_labels.ft') +train = ft.read(f1) +#f2 = open('/home/sylvain/Dropbox/Msc/IFT6266/donnees/all_test_labels.ft') +f2 = open('/data/lisa/data/nist/by_class/all/all_test_labels.ft') +test = ft.read(f2) +f1.close() +f2.close() + +#Les 6 variables +train_c=0 +train_min=0 +train_maj=0 + +test_c=0 +test_min=0 +test_maj=0 + +classe=0 #variable utilisee pour voir la classe presentement regardee +#Calcul pour le train_set +for i in xrange(len(train)): + classe=train[i] + if classe < 10: + train_c += 1 + elif classe < 36: + train_maj += 1 + elif classe < 62: + train_min += 1 + +for j in xrange(len(test)): + classe=test[j] + if classe < 10: + test_c += 1 + elif classe < 36: + test_maj += 1 + elif classe < 62: + test_min += 1 +print "Train set:",len(train),"\nchiffres:",float(train_c)/len(train),"\tmajuscules:",\ +float(train_maj)/len(train),"\tminuscules:",float(train_min)/len(train) + +print "\nTest set:",len(test),"\nchiffres:",float(test_c)/len(test),"\tmajuscules:",\ +float(test_maj)/len(test),"\tminuscules:",float(test_min)/len(test) + +if test_maj+test_min+test_c != len(test): + print "probleme avec le test, des donnees ne sont pas etiquetees" + +if train_maj+train_min+train_c != len(train): + print "probleme avec le train, des donnees ne sont pas etiquetees"