lib/myconfig.py


1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188

import os


class MyConfig:
    ''' My Configuration '''

    m_current_epoch = {'SegmentEpoch': 1, \
                           'GenerateEpoch': 1, \
                           'EstimateEpoch': 1, \
                           'PruneEpoch': 1, \
                           'EvaluateEpoch': 1, \
                           'PrepareEpoch': 1, \
                           'PopulateEpoch': 1, \
                           'PartialWordEpoch': 1, \
                           'NewWordEpoch': 1, \
                           'MarkPinyinEpoch': 1, \
                           'MergeSequenceEpoch': 1, \
                           }

    def getEpochs(self):
        return self.m_current_epoch

    m_trainer_dir = '/media/data/Program/trainer'

    def getBaseDir(self):
        return self.m_trainer_dir

    def getTextDir(self):
        return self.m_trainer_dir + os.sep + 'texts'

    def getTextIndexDir(self):
        return self.m_trainer_dir + os.sep + 'texts' + os.sep + 'index'

    def getModelDir(self):
        return self.m_trainer_dir + os.sep + 'models'

    def getFinalModelDir(self):
        return self.m_trainer_dir + os.sep + 'finals'

    m_tools_dir = '/media/data/Program/trainer/tools/libpinyin'

    def getToolsDir(self):
        return self.m_tools_dir

    m_evals_dir = '/media/data/Program/trainer/evals/libpinyin'

    def getEvalsDir(self):
        return self.m_evals_dir

    def getEstimatesModel(self):
        estimates_model = self.m_tools_dir + '/data/estimates.db'
        return estimates_model

    def getEstimateIndex(self):
        return 'estimate.index'

    def getSortedEstimateIndex(self):
        return 'estimate.sorted.index'

    def getInMemoryFileSystem(self):
        return '/dev/shm'

    def getEvalsTextFileName(self):
        return 'evals2.text'

    def getMinimumFileSize(self):
        #about 1,200 Chinese characters
        minimum_chinese_characters = 1200
        minimum_file_size = minimum_chinese_characters * 3 + \
            minimum_chinese_characters / 2

        return minimum_file_size

    #the trained corpus size of model candidates
    def getCandidateModelSize(self):
        candidate_model_size = 28.5 * 1000 * 1000 * 2
        return candidate_model_size

    def getModelPostfix(self):
        return '.db'

    def getCandidateModelName(self, index):
        candidate_model_name = "model-candidates-{0}.db"
        return candidate_model_name.format(index)

    def getMaximumOccursAllowed(self):
        return 20

    def getMaximumIncreaseRatesAllowed(self):
        return 3.

    def getReportPostfix(self):
        return '.report'

    def getSegmentPostfix(self):
        return '.segmented'

    def getSegmentReportPostfix(self):
        return '.segment.report'

    #For both index page, item page and binary model file
    def getStatusPostfix(self):
        return '.status'

    def getIndexPostfix(self):
        return '.index'

    def getTextPostfix(self):
        return '.text'

    def getBackupPostfix(self):
        return '.backup'

    def getMergedPostfix(self):
        return '.merged'

    def getMergedReportPostfix(self):
        return '.merged.report'

    def getFinalModelFileName(self):
        return 'interpolation2.text'

    def getFinalStatusFileName(self):
        return 'cwd.status'


    '''
    Word Recognizer Configuration
    '''

    def getWordRecognizerDir(self):
        return self.m_trainer_dir + os.sep + 'words'

    def getNgramFileName(self, length):
        return str(length) + '-gram.db'

    def getWordSep(self):
        return " "

    def getMaximumCombineNumber(self):
        N = 7
        assert N >= 2, 'at least bi-gram'
        return N

    def getPruneMinimumOccurrence(self):
        return 1 # prune minimum occurrence

    def getWordMinimumOccurrence(self):
        return 3 # minimum word occurrence

    def getNgramMinimumOccurrence(self):
        return 9 # minimum word occurrence in n-gram table

    def getPartialWordThreshold(self):
        return 0.50 # the first 50% in position

    def getNewWordThreshold(self):
        return 0.60 # the first 60% in position, subject verb object.

    def getMinimumEntropy(self):
        return 0.01

    def getMaximumIteration(self):
        return 20 # roughly around N

    def getBigramFileName(self):
        return "bigram.db"

    def getWordsListFileName(self):
        return "words.txt"

    def getWordsWithPinyinFileName(self):
        return "oldwords.txt"

    def getPartialWordFileName(self):
        return "partialword.txt"

    def getNewWordFileName(self):
        return "newword.txt"

    def getRecognizedWordFileName(self):
        return "recognized.txt"

    def getDefaultPinyinTotalFrequency(self):
        return 100

    def getMinimumPinyinFrequency(self):
        return 3