vall-e/vall_e/emb/g2p.py

import argparse
import random
import string
import torch

from functools import cache
from pathlib import Path
from phonemizer import phonemize
from phonemizer.backend import BACKENDS

from tqdm import tqdm

try:
	import pykakasi
except Exception as e:
	pass

@cache
def _get_graphs(path):
	with open(path, "r") as f:
		graphs = f.read()
	return graphs

def romanize( runes, sep="" ):	
	kks = pykakasi.kakasi()
	result = kks.convert( runes )
	return sep.join([ res['hira'] for res in result ])

# to-do: fill out this table
# although desu the only thing that might be needed are en-uk/en-gb, es-la, pt-br, and pt-pt
def coerce_language( lang ):
	if lang == "en":
		lang = "en-us"
	if lang == "fr":
		return "fr-fr"
	return lang

cached_backends = {}
def _get_backend( language="en-us", backend="espeak", punctuation=True, stress=True, strip=True ):
	key = f'{language}_{backend}'
	if key in cached_backends:
		return cached_backends[key]

	if backend == 'espeak':
		phonemizer = BACKENDS[backend]( language, preserve_punctuation=punctuation, with_stress=stress)
	elif backend == 'espeak-mbrola':
		phonemizer = BACKENDS[backend]( language )
	else: 
		phonemizer = BACKENDS[backend]( language, preserve_punctuation=punctuation )

	cached_backends[key] = phonemizer
	return phonemizer


def encode(text: str, language="en-us", backend="auto", punctuation=True, stress=True, strip=True) -> list[str]:
	language = coerce_language( language )

	# Convert to kana because espeak does not like kanji...
	if language[:2] == "ja" and backend == "auto":
		text = romanize( text )

	if not backend or backend == "auto":
		backend = "espeak" # if language[:2] != "en" else "festival"

	backend = _get_backend(language=language, backend=backend, stress=stress, strip=strip, punctuation=punctuation)
	if backend is not None:
		tokens = backend.phonemize( [ text ], strip=strip )
	else:
		tokens = phonemize( [ text ], language=language, strip=strip, preserve_punctuation=punctuation, with_stress=stress )
	
	if not len(tokens):
		raise Exception(f"Failed to phonemize, received empty string: {text}")

	return tokens[0]

# Helper function to debug phonemizer
if __name__ == "__main__":
	parser = argparse.ArgumentParser()

	parser.add_argument("string", type=str)
	parser.add_argument("--language", type=str, default="en-us")
	parser.add_argument("--backend", type=str, default="auto")
	parser.add_argument("--no-punctuation", action="store_true")
	parser.add_argument("--no-stress", action="store_true")
	parser.add_argument("--no-strip", action="store_true")

	args = parser.parse_args()

	phonemes = encode( args.string, language=args.language, backend=args.backend, punctuation=not args.no_punctuation, stress=not args.no_stress, strip=not args.no_strip )
	print( phonemes )
Rewrite init 2023-08-02 21:53:35 +00:00			`import argparse`
			`import random`
			`import string`
			`import torch`

			`from functools import cache`
			`from pathlib import Path`
			`from phonemizer import phonemize`
			`from phonemizer.backend import BACKENDS`

			`from tqdm import tqdm`

actually pass language into dataset process script, fix coercing japanese into hiragana because espeak does not like kanji 2024-07-22 04:21:37 +00:00			`try:`
			`import pykakasi`
			`except Exception as e:`
			`pass`

Rewrite init 2023-08-02 21:53:35 +00:00			`@cache`
			`def _get_graphs(path):`
			`with open(path, "r") as f:`
			`graphs = f.read()`
			`return graphs`

actually pass language into dataset process script, fix coercing japanese into hiragana because espeak does not like kanji 2024-07-22 04:21:37 +00:00			`def romanize( runes, sep="" ):`
			`kks = pykakasi.kakasi()`
			`result = kks.convert( runes )`
			`return sep.join([ res['hira'] for res in result ])`

fix oversight with phonemizing french because espeak defines french as fr-fr instead of fr (even though spain spanish is es and not es-sp or some shit, but portugal portuguese is pt-pt) 2024-09-13 17:53:36 +00:00			`# to-do: fill out this table`
			`# although desu the only thing that might be needed are en-uk/en-gb, es-la, pt-br, and pt-pt`
			`def coerce_language( lang ):`
			`if lang == "en":`
			`lang = "en-us"`
			`if lang == "fr":`
			`return "fr-fr"`
			`return lang`

Rewrite init 2023-08-02 21:53:35 +00:00			`cached_backends = {}`
some insanity for sanity checks (some phonemes from phonemizing japanese are not in my tokenizer...) 2024-07-22 05:30:40 +00:00			`def _get_backend( language="en-us", backend="espeak", punctuation=True, stress=True, strip=True ):`
Rewrite init 2023-08-02 21:53:35 +00:00			`key = f'{language}_{backend}'`
			`if key in cached_backends:`
			`return cached_backends[key]`

			`if backend == 'espeak':`
some insanity for sanity checks (some phonemes from phonemizing japanese are not in my tokenizer...) 2024-07-22 05:30:40 +00:00			`phonemizer = BACKENDS[backend]( language, preserve_punctuation=punctuation, with_stress=stress)`
Rewrite init 2023-08-02 21:53:35 +00:00			`elif backend == 'espeak-mbrola':`
			`phonemizer = BACKENDS[backend]( language )`
			`else:`
some insanity for sanity checks (some phonemes from phonemizing japanese are not in my tokenizer...) 2024-07-22 05:30:40 +00:00			`phonemizer = BACKENDS[backend]( language, preserve_punctuation=punctuation )`
Rewrite init 2023-08-02 21:53:35 +00:00
			`cached_backends[key] = phonemizer`
			`return phonemizer`


some insanity for sanity checks (some phonemes from phonemizing japanese are not in my tokenizer...) 2024-07-22 05:30:40 +00:00			`def encode(text: str, language="en-us", backend="auto", punctuation=True, stress=True, strip=True) -> list[str]:`
fix oversight with phonemizing french because espeak defines french as fr-fr instead of fr (even though spain spanish is es and not es-sp or some shit, but portugal portuguese is pt-pt) 2024-09-13 17:53:36 +00:00			`language = coerce_language( language )`
Rewrite init 2023-08-02 21:53:35 +00:00
actually pass language into dataset process script, fix coercing japanese into hiragana because espeak does not like kanji 2024-07-22 04:21:37 +00:00			`# Convert to kana because espeak does not like kanji...`
			`if language[:2] == "ja" and backend == "auto":`
			`text = romanize( text )`

overhauled dataloading code to be marginally faster, mostly cleaned up, and can leverage a metadata json to help things out 2023-08-27 00:53:23 +00:00			`if not backend or backend == "auto":`
			`backend = "espeak" # if language[:2] != "en" else "festival"`

some insanity for sanity checks (some phonemes from phonemizing japanese are not in my tokenizer...) 2024-07-22 05:30:40 +00:00			`backend = _get_backend(language=language, backend=backend, stress=stress, strip=strip, punctuation=punctuation)`
Rewrite init 2023-08-02 21:53:35 +00:00			`if backend is not None:`
busy work and cleanup while I wait for 1TB of audio to quantize... again. 2024-08-07 01:23:33 +00:00			`tokens = backend.phonemize( [ text ], strip=strip )`
Rewrite init 2023-08-02 21:53:35 +00:00			`else:`
busy work and cleanup while I wait for 1TB of audio to quantize... again. 2024-08-07 01:23:33 +00:00			`tokens = phonemize( [ text ], language=language, strip=strip, preserve_punctuation=punctuation, with_stress=stress )`
Rewrite init 2023-08-02 21:53:35 +00:00
some insanity for sanity checks (some phonemes from phonemizing japanese are not in my tokenizer...) 2024-07-22 05:30:40 +00:00			`if not len(tokens):`
busy work and cleanup while I wait for 1TB of audio to quantize... again. 2024-08-07 01:23:33 +00:00			`raise Exception(f"Failed to phonemize, received empty string: {text}")`

			`return tokens[0]`

			`# Helper function to debug phonemizer`
			`if __name__ == "__main__":`
			`parser = argparse.ArgumentParser()`

			`parser.add_argument("string", type=str)`
			`parser.add_argument("--language", type=str, default="en-us")`
			`parser.add_argument("--backend", type=str, default="auto")`
			`parser.add_argument("--no-punctuation", action="store_true")`
			`parser.add_argument("--no-stress", action="store_true")`
			`parser.add_argument("--no-strip", action="store_true")`

			`args = parser.parse_args()`
Rewrite init 2023-08-02 21:53:35 +00:00
busy work and cleanup while I wait for 1TB of audio to quantize... again. 2024-08-07 01:23:33 +00:00			`phonemes = encode( args.string, language=args.language, backend=args.backend, punctuation=not args.no_punctuation, stress=not args.no_stress, strip=not args.no_strip )`
			`print( phonemes )`