vall-e/vall_e/__main__.py

import argparse
from pathlib import Path
from .inference import TTS
from .config import cfg

def path_list(arg):
	if not arg:
		return None
	return [Path(p) for p in arg.split(";")]

def main():
	parser = argparse.ArgumentParser("VALL-E TTS")
	parser.add_argument("text")
	parser.add_argument("references", type=path_list, default=None)
	parser.add_argument("--language", type=str, default="en")
	parser.add_argument("--task", type=str, default="tts")
	parser.add_argument("--modality", type=str, default="auto")
	parser.add_argument("--out-path", type=Path, default=None)

	parser.add_argument("--yaml", type=Path, default=None)
	parser.add_argument("--model", type=Path, default=None)
	parser.add_argument("--lora", type=Path, default=None)

	parser.add_argument("--max-duration", type=int, default=12 * cfg.dataset.frames_per_second)
	parser.add_argument("--max-steps", type=int, default=25)
	parser.add_argument("--max-levels", type=int, default=7)

	parser.add_argument("--ar-temperature", type=float, default=1.0)
	parser.add_argument("--nar-temperature", type=float, default=0.0)
	parser.add_argument("--min-ar-temperature", type=float, default=-1.0)
	parser.add_argument("--min-nar-temperature", type=float, default=-1.0)
	parser.add_argument("--input-prompt-length", type=float, default=3.0)
	parser.add_argument("--input-prompt-prefix", action="store_true")
	parser.add_argument("--prefix-silence", type=float, default=0.0)
	parser.add_argument("--cfg-strength", type=float, default=0.0)
	parser.add_argument("--cfg-rescale", type=float, default=0.75)

	parser.add_argument("--top-p", type=float, default=1.0)
	parser.add_argument("--top-k", type=int, default=0)
	parser.add_argument("--top-no", type=float, default=0.0)
	parser.add_argument("--min-p", type=float, default=0.0)
	parser.add_argument("--repetition-penalty", type=float, default=1.0)
	parser.add_argument("--repetition-penalty-decay", type=float, default=0.0)
	parser.add_argument("--length-penalty", type=float, default=0.0)
	parser.add_argument("--beam-width", type=int, default=0)
	
	parser.add_argument("--mirostat-tau", type=float, default=0)
	parser.add_argument("--mirostat-eta", type=float, default=0)
	
	parser.add_argument("--dry-multiplier", type=float, default=0)
	parser.add_argument("--dry-base", type=float, default=1.75)
	parser.add_argument("--dry-allowed-length", type=int, default=2)
	
	parser.add_argument("--entropix-sampling", action="store_true")
	
	parser.add_argument("--layer-skip", action="store_true")
	parser.add_argument("--layer-skip-exit-layer", type=int, default=None)
	parser.add_argument("--layer-skip-entropy-threshold", type=int, default=0.1)
	parser.add_argument("--layer-skip-varentropy-threshold", type=int, default=0.1)
	parser.add_argument("--refine-on-stop", action="store_true")

	# experimental settings
	parser.add_argument("--load-from-artifact", type=Path, default=None)
	parser.add_argument("--denoise-start", type=float, default=0.0)
	
	parser.add_argument("--seed", type=int, default=None)

	parser.add_argument("--device", type=str, default=None)
	parser.add_argument("--amp", action="store_true")
	parser.add_argument("--dtype", type=str, default=None)
	parser.add_argument("--attention", type=str, default=None)
	args = parser.parse_args()

	config = None

	if args.yaml:
		config = args.yaml
	elif args.model:
		config = args.model

	tts = TTS( config=config, lora=args.lora, device=args.device, dtype=args.dtype, amp=args.amp, attention=args.attention )

	sampling_kwargs = dict(
		max_steps=args.max_steps,
		max_levels=args.max_levels,
		max_duration=args.max_duration,
		ar_temperature=args.ar_temperature, nar_temperature=args.nar_temperature,
		min_ar_temperature=args.min_ar_temperature, min_nar_temperature=args.min_nar_temperature,
		top_p=args.top_p, top_k=args.top_k, top_no=args.top_no,min_p=args.min_p,
		repetition_penalty=args.repetition_penalty, repetition_penalty_decay=args.repetition_penalty_decay,
		length_penalty=args.length_penalty,
		beam_width=args.beam_width,
		mirostat_tau=args.mirostat_tau, mirostat_eta=args.mirostat_eta,
		dry_multiplier=args.dry_multiplier, dry_base=args.dry_base, dry_allowed_length=args.dry_allowed_length,
		entropix_sampling=args.entropix_sampling,
		layer_skip=args.layer_skip,
		layer_skip_exit_layer=args.layer_skip_exit_layer,
		layer_skip_entropy_threshold=args.layer_skip_entropy_threshold,
		layer_skip_varentropy_threshold=args.layer_skip_varentropy_threshold,
		refine_on_stop=args.refine_on_stop,
		denoise_start=args.denoise_start,
		input_prompt_length=args.input_prompt_length,
		input_prompt_prefix=args.input_prompt_prefix,
		prefix_silence=args.prefix_silence,
		cfg_strength=args.cfg_strength,
		cfg_rescale=args.cfg_rescale,
	)

	output = tts.inference(
		text=args.text,
		references=args.references,
		language=args.language,
		task=args.task,
		modality=args.modality,
		out_path=args.out_path,

		input_prompt_length=args.input_prompt_length,
		load_from_artifact=args.load_from_artifact,

		sampling_kwargs=sampling_kwargs,

		seed=args.seed,
	)
	
	if isinstance( output, str ):
		print( output )

if __name__ == "__main__":
	main()
Rewrite init 2023-08-02 21:53:35 +00:00			`import argparse`
			`from pathlib import Path`
			`from .inference import TTS`
the NAR only dream is dead (it just won't work) 2024-06-13 00:49:47 +00:00			`from .config import cfg`
Rewrite init 2023-08-02 21:53:35 +00:00
inferencing cleanup 2023-08-21 02:36:02 +00:00			`def path_list(arg):`
some weird fixes for an equally weird regression with LoRA loading 2024-07-23 01:47:24 +00:00			`if not arg:`
			`return None`
inferencing cleanup 2023-08-21 02:36:02 +00:00			`return [Path(p) for p in arg.split(";")]`

Rewrite init 2023-08-02 21:53:35 +00:00			`def main():`
			`parser = argparse.ArgumentParser("VALL-E TTS")`
			`parser.add_argument("text")`
some weird fixes for an equally weird regression with LoRA loading 2024-07-23 01:47:24 +00:00			`parser.add_argument("references", type=path_list, default=None)`
exposed rolling resp context to the web UI, added passing in language to inferencing command line 2023-10-13 04:21:01 +00:00			`parser.add_argument("--language", type=str, default="en")`
tweak 2024-09-06 04:21:18 +00:00			`parser.add_argument("--task", type=str, default="tts")`
better modality selection (pick AR+NAR by default for the ar+nar model, pick NAR-len by default for the nar-len model), lowered default CFG because it makes the AR+NAR output sped up (but can't be too low since it's required for the NAR-len) 2024-11-20 00:51:17 +00:00			`parser.add_argument("--modality", type=str, default="auto")`
inferencing cleanup 2023-08-21 02:36:02 +00:00			`parser.add_argument("--out-path", type=Path, default=None)`

Rewrite init 2023-08-02 21:53:35 +00:00			`parser.add_argument("--yaml", type=Path, default=None)`
added option to load lora directly from the model file itself with --lora 2024-10-26 05:13:10 +00:00			`parser.add_argument("--model", type=Path, default=None)`
			`parser.add_argument("--lora", type=Path, default=None)`
added a length-based decay factor for repetition penalty 2023-09-09 02:02:00 +00:00
overhauled inference/sampler kwargs to stop being a bloated mess 2024-11-12 02:21:16 +00:00			`parser.add_argument("--max-duration", type=int, default=12 * cfg.dataset.frames_per_second)`
			`parser.add_argument("--max-steps", type=int, default=25)`
			`parser.add_argument("--max-levels", type=int, default=7)`
added a length-based decay factor for repetition penalty 2023-09-09 02:02:00 +00:00
overhauled inference/sampler kwargs to stop being a bloated mess 2024-11-12 02:21:16 +00:00			`parser.add_argument("--ar-temperature", type=float, default=1.0)`
			`parser.add_argument("--nar-temperature", type=float, default=0.0)`
			`parser.add_argument("--min-ar-temperature", type=float, default=-1.0)`
			`parser.add_argument("--min-nar-temperature", type=float, default=-1.0)`
added option to set the trim length for an input prompt 2023-09-09 23:04:44 +00:00			`parser.add_argument("--input-prompt-length", type=float, default=3.0)`
README tweaks, added --input-prompt-prefix as an experiment (its literally better to just not do this, but i'll retain it in case i have a revelation on how to improve it) 2024-10-04 23:57:19 +00:00			`parser.add_argument("--input-prompt-prefix", action="store_true")`
overhauled inference/sampler kwargs to stop being a bloated mess 2024-11-12 02:21:16 +00:00			`parser.add_argument("--prefix-silence", type=float, default=0.0)`
			`parser.add_argument("--cfg-strength", type=float, default=0.0)`
moved stuff in the web UI around (un-experimented the max NAR-len steps because its kind of important to adjust this value for better sounding audio / quicker generated audio) 2024-11-21 02:37:33 +00:00			`parser.add_argument("--cfg-rescale", type=float, default=0.75)`
added lots of sampling options (top-k/top-p, repetition penalty, length penalty) 2023-09-09 01:30:54 +00:00
			`parser.add_argument("--top-p", type=float, default=1.0)`
actually pass language into dataset process script, fix coercing japanese into hiragana because espeak does not like kanji 2024-07-22 04:21:37 +00:00			`parser.add_argument("--top-k", type=int, default=0)`
new meme sampler PogChamp new meme sampler PogChamp (it sort of helps?) 2024-11-13 04:30:09 +00:00			`parser.add_argument("--top-no", type=float, default=0.0)`
added min-p (really does not seem useful since it's very sensitive), more tweaks to entropix 2024-10-12 03:36:06 +00:00			`parser.add_argument("--min-p", type=float, default=0.0)`
overhauled inference/sampler kwargs to stop being a bloated mess 2024-11-12 02:21:16 +00:00			`parser.add_argument("--repetition-penalty", type=float, default=1.0)`
added a length-based decay factor for repetition penalty 2023-09-09 02:02:00 +00:00			`parser.add_argument("--repetition-penalty-decay", type=float, default=0.0)`
added lots of sampling options (top-k/top-p, repetition penalty, length penalty) 2023-09-09 01:30:54 +00:00			`parser.add_argument("--length-penalty", type=float, default=0.0)`
implemented a naive beam search (I really should be taking a break) 2023-09-13 02:28:07 +00:00			`parser.add_argument("--beam-width", type=int, default=0)`
added mirostat sampling (given a partially trained model, it got far decent output than I expected, need to test on a better trained model) 2023-09-18 23:55:41 +00:00
			`parser.add_argument("--mirostat-tau", type=float, default=0)`
			`parser.add_argument("--mirostat-eta", type=float, default=0)`
backport fix from tortoise_tts with local trainer + loading state when training lora 2024-06-25 18:41:29 +00:00
added what I think is DRY sampling 2024-07-30 00:15:07 +00:00			`parser.add_argument("--dry-multiplier", type=float, default=0)`
			`parser.add_argument("--dry-base", type=float, default=1.75)`
			`parser.add_argument("--dry-allowed-length", type=int, default=2)`

modified demo page to be more modular with demoing comparisons, actually provide a path to use modified naive attention, entropix sampling is not tied to an experimental yaml flag now 2024-10-12 16:27:55 +00:00			`parser.add_argument("--entropix-sampling", action="store_true")`

shuffled web UI options hidden by cfg.experimental to its own tab, expose early exit selection to inferencing (it kinda works naively, still need to implement self-speculation) 2024-11-02 02:30:06 +00:00			`parser.add_argument("--layer-skip", action="store_true")`
			`parser.add_argument("--layer-skip-exit-layer", type=int, default=None)`
more adjustments (adjustments of early-exit entropy/varentropy thresholds, default rep pen being 1.5, experimental refine-on-stop, etc.) 2024-11-04 00:31:28 +00:00			`parser.add_argument("--layer-skip-entropy-threshold", type=int, default=0.1)`
			`parser.add_argument("--layer-skip-varentropy-threshold", type=int, default=0.1)`
			`parser.add_argument("--refine-on-stop", action="store_true")`
all I can do now until I wait for the model to (re)train for pure NAR 2024-11-10 04:57:34 +00:00
			`# experimental settings`
			`parser.add_argument("--load-from-artifact", type=Path, default=None)`
			`parser.add_argument("--denoise-start", type=float, default=0.0)`
shuffled web UI options hidden by cfg.experimental to its own tab, expose early exit selection to inferencing (it kinda works naively, still need to implement self-speculation) 2024-11-02 02:30:06 +00:00
backport fix from tortoise_tts with local trainer + loading state when training lora 2024-06-25 18:41:29 +00:00			`parser.add_argument("--seed", type=int, default=None)`
added lots of sampling options (top-k/top-p, repetition penalty, length penalty) 2023-09-09 01:30:54 +00:00
added light web UI (need to port the telemetry disabling bandaids from aivc) 2023-09-09 21:17:20 +00:00			`parser.add_argument("--device", type=str, default=None)`
			`parser.add_argument("--amp", action="store_true")`
			`parser.add_argument("--dtype", type=str, default=None)`
added ability to specify attention backend for CLI and webui (because im tired of editing the yaml) 2024-08-27 00:33:51 +00:00			`parser.add_argument("--attention", type=str, default=None)`
Rewrite init 2023-08-02 21:53:35 +00:00			`args = parser.parse_args()`

added option to load lora directly from the model file itself with --lora 2024-10-26 05:13:10 +00:00			`config = None`

			`if args.yaml:`
			`config = args.yaml`
			`elif args.model:`
			`config = args.model`

			`tts = TTS( config=config, lora=args.lora, device=args.device, dtype=args.dtype, amp=args.amp, attention=args.attention )`
overhauled inference/sampler kwargs to stop being a bloated mess 2024-11-12 02:21:16 +00:00
			`sampling_kwargs = dict(`
			`max_steps=args.max_steps,`
			`max_levels=args.max_levels,`
			`max_duration=args.max_duration,`
			`ar_temperature=args.ar_temperature, nar_temperature=args.nar_temperature,`
			`min_ar_temperature=args.min_ar_temperature, min_nar_temperature=args.min_nar_temperature,`
new meme sampler PogChamp new meme sampler PogChamp (it sort of helps?) 2024-11-13 04:30:09 +00:00			`top_p=args.top_p, top_k=args.top_k, top_no=args.top_no,min_p=args.min_p,`
added mirostat sampling (given a partially trained model, it got far decent output than I expected, need to test on a better trained model) 2023-09-18 23:55:41 +00:00			`repetition_penalty=args.repetition_penalty, repetition_penalty_decay=args.repetition_penalty_decay,`
			`length_penalty=args.length_penalty,`
			`beam_width=args.beam_width,`
backport fix from tortoise_tts with local trainer + loading state when training lora 2024-06-25 18:41:29 +00:00			`mirostat_tau=args.mirostat_tau, mirostat_eta=args.mirostat_eta,`
added option to set the causal size (how many tokens to sample per AR step), but requires the model to be trained for this (which explains why recurrent chunk sampling just doesn't work for the retnet tests, obvious in hindsight) 2024-07-31 01:53:51 +00:00			`dry_multiplier=args.dry_multiplier, dry_base=args.dry_base, dry_allowed_length=args.dry_allowed_length,`
modified demo page to be more modular with demoing comparisons, actually provide a path to use modified naive attention, entropix sampling is not tied to an experimental yaml flag now 2024-10-12 16:27:55 +00:00			`entropix_sampling=args.entropix_sampling,`
shuffled web UI options hidden by cfg.experimental to its own tab, expose early exit selection to inferencing (it kinda works naively, still need to implement self-speculation) 2024-11-02 02:30:06 +00:00			`layer_skip=args.layer_skip,`
			`layer_skip_exit_layer=args.layer_skip_exit_layer,`
more adjustments (adjustments of early-exit entropy/varentropy thresholds, default rep pen being 1.5, experimental refine-on-stop, etc.) 2024-11-04 00:31:28 +00:00			`layer_skip_entropy_threshold=args.layer_skip_entropy_threshold,`
			`layer_skip_varentropy_threshold=args.layer_skip_varentropy_threshold,`
			`refine_on_stop=args.refine_on_stop,`
all I can do now until I wait for the model to (re)train for pure NAR 2024-11-10 04:57:34 +00:00			`denoise_start=args.denoise_start,`
actually pass input prompt length size to inference 2024-11-12 02:39:48 +00:00			`input_prompt_length=args.input_prompt_length,`
overhauled inference/sampler kwargs to stop being a bloated mess 2024-11-12 02:21:16 +00:00			`input_prompt_prefix=args.input_prompt_prefix,`
			`prefix_silence=args.prefix_silence,`
			`cfg_strength=args.cfg_strength,`
moved stuff in the web UI around (un-experimented the max NAR-len steps because its kind of important to adjust this value for better sounding audio / quicker generated audio) 2024-11-21 02:37:33 +00:00			`cfg_rescale=args.cfg_rescale,`
overhauled inference/sampler kwargs to stop being a bloated mess 2024-11-12 02:21:16 +00:00			`)`

			`output = tts.inference(`
			`text=args.text,`
			`references=args.references,`
			`language=args.language,`
			`task=args.task,`
better modality selection (pick AR+NAR by default for the ar+nar model, pick NAR-len by default for the nar-len model), lowered default CFG because it makes the AR+NAR output sped up (but can't be too low since it's required for the NAR-len) 2024-11-20 00:51:17 +00:00			`modality=args.modality,`
overhauled inference/sampler kwargs to stop being a bloated mess 2024-11-12 02:21:16 +00:00			`out_path=args.out_path,`

			`input_prompt_length=args.input_prompt_length,`
			`load_from_artifact=args.load_from_artifact,`

			`sampling_kwargs=sampling_kwargs,`
all I can do now until I wait for the model to (re)train for pure NAR 2024-11-10 04:57:34 +00:00
backport fix from tortoise_tts with local trainer + loading state when training lora 2024-06-25 18:41:29 +00:00			`seed=args.seed,`
added mirostat sampling (given a partially trained model, it got far decent output than I expected, need to test on a better trained model) 2023-09-18 23:55:41 +00:00			`)`
validated rep pen for STT (sometimes needed to wrangle the model) 2024-09-08 13:30:30 +00:00
			`if isinstance( output, str ):`
			`print( output )`
Rewrite init 2023-08-02 21:53:35 +00:00
			`if __name__ == "__main__":`
			`main()`