unk hunting
This commit is contained in:
parent
46ff3c476a
commit
1a8c5de517
|
@ -106,7 +106,18 @@
|
||||||
"ʌ": 57,
|
"ʌ": 57,
|
||||||
"ʒ": 58,
|
"ʒ": 58,
|
||||||
"θ": 59,
|
"θ": 59,
|
||||||
"ː": 60
|
"ɐ": 60,
|
||||||
|
"ɜ": 61,
|
||||||
|
"ᵻ": 62,
|
||||||
|
"ɾ": 63,
|
||||||
|
"n̩": 64,
|
||||||
|
"ː": 65,
|
||||||
|
"ɔː": 66,
|
||||||
|
"uː": 67,
|
||||||
|
"iː": 68,
|
||||||
|
"ɑː": 69,
|
||||||
|
"oː": 70,
|
||||||
|
"ɜː": 71
|
||||||
},
|
},
|
||||||
"merges":
|
"merges":
|
||||||
[
|
[
|
||||||
|
@ -116,7 +127,13 @@
|
||||||
"e ɪ",
|
"e ɪ",
|
||||||
"o ʊ",
|
"o ʊ",
|
||||||
"t͡ ʃ",
|
"t͡ ʃ",
|
||||||
"ɔ ɪ"
|
"ɔ ɪ",
|
||||||
|
"ɔ ː",
|
||||||
|
"u ː",
|
||||||
|
"i ː",
|
||||||
|
"ɑ ː",
|
||||||
|
"o ː",
|
||||||
|
"ɜ ː"
|
||||||
]
|
]
|
||||||
}
|
}
|
||||||
}
|
}
|
|
@ -1781,7 +1781,7 @@ def tokenize_text( text ):
|
||||||
load_tts()
|
load_tts()
|
||||||
|
|
||||||
encoded = tts.tokenizer.encode(text)
|
encoded = tts.tokenizer.encode(text)
|
||||||
decoded = tts.tokenizer.tokenizer.decode(encoded, skip_special_tokens=False).replace(" ", "")
|
decoded = tts.tokenizer.tokenizer.decode(encoded, skip_special_tokens=False).replace(" ", "").replace("[SPACE]", " ")
|
||||||
|
|
||||||
return "\n".join([ str(encoded), decoded ])
|
return "\n".join([ str(encoded), decoded ])
|
||||||
|
|
||||||
|
|
Loading…
Reference in New Issue
Block a user