Tree - rpms/libkkc-data - CentOS Git server

rpms / libkkc-data

Blame SOURCES/libkkc-data-HEAD.patch

Blob History Raw

		c085bd	`diff --git a/tools/genfilter.py b/tools/genfilter.py`
		c085bd	`index 5ffab32..0c5f75a 100644`
		c085bd	`--- a/tools/genfilter.py`
		c085bd	`+++ b/tools/genfilter.py`
		c085bd	`@@ -84,24 +84,24 @@ class FilterGenerator(object):`
		c085bd
		c085bd	`def generate(self):`
		c085bd	`size = os.fstat(self.infile.fileno()).st_size`
		c085bd	`- n = size / self.record_size`
		c085bd	`+ n = size // self.record_size`
		c085bd	`m = int(math.ceil(-n*math.log10(ERROR_RATE) /`
		c085bd	`math.pow(math.log10(2), 2)))`
		c085bd	`- m = (m/8 + 1)*8`
		c085bd	`+ m = (m//8 + 1)*8`
		c085bd	`inmem = mmap.mmap(self.infile.fileno(),`
		c085bd	`size,`
		c085bd	`access=mmap.ACCESS_READ)`
		c085bd	`- outmem = bytearray(m/8)`
		c085bd	`- for i in xrange(0, n):`
		c085bd	`+ outmem = bytearray(m//8)`
		c085bd	`+ for i in range(0, n):`
		c085bd	`offset = i*self.record_size`
		c085bd	`b0, b1 = struct.unpack("=LL", inmem[offset:offset+8])`
		c085bd	`- for k in xrange(0, 4):`
		c085bd	`+ for k in range(0, 4):`
		c085bd	`h = murmur_hash3_32(b0, b1, k)`
		c085bd	`h = int(h * (m / float(0xFFFFFFFF)))`
		c085bd	`- outmem[h/8] \|= (1 << (h%8))`
		c085bd	`+ outmem[h//8] \|= (1 << (h%8))`
		c085bd	`inmem.close()`
		c085bd	`- # Convert bytearray to str, for Python 2.6 compatibility.`
		c085bd	`- self.outfile.write(str(outmem))`
		c085bd	`+ # Convert bytearray to bytes, for Python 3 compatibility.`
		c085bd	`+ self.outfile.write(bytes(outmem))`
		c085bd
		c085bd	`if __name__ == '__main__':`
		c085bd	`import sys`
		c085bd	`@@ -110,7 +110,7 @@ if __name__ == '__main__':`
		c085bd	`parser = argparse.ArgumentParser(description='filter')`
		c085bd	`parser.add_argument('infile', type=argparse.FileType('r'),`
		c085bd	`help='input file')`
		c085bd	`- parser.add_argument('outfile', type=argparse.FileType('w'),`
		c085bd	`+ parser.add_argument('outfile', type=argparse.FileType('wb'),`
		c085bd	`help='output file')`
		c085bd	`parser.add_argument('record_size', type=int,`
		c085bd	`help='record size')`
		c085bd	`diff --git a/tools/sortlm.py b/tools/sortlm.py`
		c085bd	`index a0dd8fe..40f0837 100644`
		c085bd	`--- a/tools/sortlm.py`
		c085bd	`+++ b/tools/sortlm.py`
		c085bd	`@@ -40,10 +40,10 @@ class SortedGenerator(object):`
		c085bd	`self.__min_cost = 0.0`
		c085bd
		c085bd	`def read(self):`
		c085bd	`- print "reading N-grams"`
		c085bd	`+ print("reading N-grams")`
		c085bd	`self.__read_tries()`
		c085bd	`self.__read_ngrams()`
		c085bd	`- print "min cost = %lf" % self.__min_cost`
		c085bd	`+ print("min cost = %lf" % self.__min_cost)`
		c085bd
		c085bd	`def __read_tries(self):`
		c085bd	`while True:`
		c085bd	`@@ -58,7 +58,7 @@ class SortedGenerator(object):`
		c085bd	`line = self.__infile.readline()`
		c085bd	`if line == "":`
		c085bd	`break`
		c085bd	`- line = line.strip()`
		c085bd	`+ line = line.strip('\n')`
		c085bd	`if line == "":`
		c085bd	`break`
		c085bd	`match = self.__ngram_line_regex.match(line)`
		c085bd	`@@ -89,7 +89,7 @@ class SortedGenerator(object):`
		c085bd	`line = self.__infile.readline()`
		c085bd	`if line == "":`
		c085bd	`break`
		c085bd	`- line = line.strip()`
		c085bd	`+ line = line.strip('\n')`
		c085bd	`if line == "":`
		c085bd	`break`
		c085bd	`match = self.__ngram_line_regex.match(line)`
		c085bd	`@@ -125,14 +125,11 @@ class SortedGenerator(object):`
		c085bd	`def quantize(cost, min_cost):`
		c085bd	`return max(0, min(65535, int(cost * 65535 / min_cost)))`
		c085bd
		c085bd	`- def cmp_header(a, b):`
		c085bd	`- return cmp(a[0], b[0])`
		c085bd	`-`
		c085bd	`- print "writing 1-gram file"`
		c085bd	`+ print("writing 1-gram file")`
		c085bd	`unigram_offsets = {}`
		c085bd	`unigram_file = open("%s.1gram" % self.__output_prefix, "wb")`
		c085bd	`offset = 0`
		c085bd	`- for ids, value in sorted(self.__ngram_entries[0].iteritems()):`
		c085bd	`+ for ids, value in sorted(self.__ngram_entries[0].items()):`
		c085bd	`unigram_offsets[ids[0]] = offset`
		c085bd	`s = struct.pack("=HHH",`
		c085bd	`quantize(value[0], self.__min_cost),`
		c085bd	`@@ -143,13 +140,13 @@ class SortedGenerator(object):`
		c085bd	`offset += 1`
		c085bd	`unigram_file.close()`
		c085bd
		c085bd	`- print "writing 2-gram file"`
		c085bd	`+ print("writing 2-gram file")`
		c085bd	`bigram_offsets = {}`
		c085bd	`bigram_file = open("%s.2gram" % self.__output_prefix, "wb")`
		c085bd	`keys = self.__ngram_entries[1].keys()`
		c085bd	`items = [(struct.pack("=LL", ids[1], unigram_offsets[ids[0]]), ids) for ids in keys]`
		c085bd	`offset = 0`
		c085bd	`- for header, ids in sorted(items, cmp=cmp_header):`
		c085bd	`+ for header, ids in sorted(items, key=lambda x: x[0]):`
		c085bd	`value = self.__ngram_entries[1][ids]`
		c085bd	`bigram_offsets[ids] = offset`
		c085bd	`s = struct.pack("=HH",`
		c085bd	`@@ -160,11 +157,11 @@ class SortedGenerator(object):`
		c085bd	`bigram_file.close()`
		c085bd
		c085bd	`if len(self.__ngram_entries[2]) > 0:`
		c085bd	`- print "writing 3-gram file"`
		c085bd	`+ print("writing 3-gram file")`
		c085bd	`trigram_file = open("%s.3gram" % self.__output_prefix, "wb")`
		c085bd	`keys = self.__ngram_entries[2].keys()`
		c085bd	`items = [(struct.pack("=LL", ids[2], bigram_offsets[(ids[0], ids[1])]), ids) for ids in keys]`
		c085bd	`- for header, ids in sorted(items, cmp=cmp_header):`
		c085bd	`+ for header, ids in sorted(items, key=lambda x: x[0]):`
		c085bd	`value = self.__ngram_entries[2][ids]`
		c085bd	`s = struct.pack("=H",`
		c085bd	`quantize(value[0], self.__min_cost))`

rpms / libkkc-data

Source Code

Blame SOURCES/libkkc-data-HEAD.patch