Add trainer

2023-01-12 14:41:44 +08:00 · 2023-01-12 14:41:44 +08:00 · c3bacebfab
commit c3bacebfab
parent d19449f1f1
13 changed files with 639 additions and 5 deletions
--- a/.gitignore
+++ b/.gitignore
@ -2,3 +2,4 @@ __pycache__
 /data
 /logs
 /ckpts
 /.cache
--- a/README.md
+++ b/README.md
@ -2,9 +2,12 @@
 An unofficial (toy) implementation of VALL-E, based on the [encodec](https://github.com/facebookresearch/encodec) tokenizer.
 [!["Buy Me A Coffee"](https://www.buymeacoffee.com/assets/img/custom_images/orange_img.png)](https://www.buymeacoffee.com/enhuiz)
 ## TODO
 - [x] AR model for the first quantizer.
 - [x] Audio decoding from tokens.
 - [x] NAR model for the rest quantizers.
- [ ] Trainers for both models.
+- [x] Trainers for both models.
 - [ ] Pre-trained checkpoint.
--- a/config/ar.yml
+++ b/config/ar.yml
@ -0,0 +1,4 @@
 data_dirs: [data/test]
 model: ar
 batch_size: 1
--- a/config/nar.yml
+++ b/config/nar.yml
@ -0,0 +1,4 @@
 data_dirs: [data/test]
 model: nar
 batch_size: 1
--- a/data/test/test.ar.recon.wav
+++ b/data/test/test.ar.recon.wav
--- a/data/test/test.nar.init.wav
+++ b/data/test/test.nar.init.wav
--- a/data/test/test.nar.recon.wav
+++ b/data/test/test.nar.recon.wav
--- a/vall_e/config.py
+++ b/vall_e/config.py
@ -0,0 +1,77 @@
 from dataclasses import dataclass, field
 from functools import cached_property
 from pathlib import Path
 import diskcache
 from .utils import Config as ConfigBase
@dataclass(frozen=True)
 class Config(ConfigBase):
    data_root: Path = Path("data")
    data_dirs: list[Path] = field(default_factory=lambda: [])
    test_data_dirs: list[Path] = field(default_factory=lambda: [])
    batch_size: int = 24
    eval_batch_size: int = 12
    nj: int = 8
    @property
    def sample_rate(self):
        return 24_000
    p_additional_prompt: float = 0.5
    token_dim: int = 256
    num_tokens: int = 1024
    batch_size: int = 128
    eval_batch_size: int = 512
    warmup_min_lr: float = 1e-6
    warmup_max_lr: float = 2e-4
    dis_warmup_max_lr: float = 4e-4
    warmup_num_steps: int = 1_000
    max_iter: int = 10_000
    gradient_clipping: float = 100
    eval_every: int = 2_000
    save_ckpt_every: int = 10_000
    model: str = "ar"
    d_model: int = 512
    n_heads: int = 8
    n_layers: int = 12
    p_dropout: float = 0.1
    @property
    def ds_cfg(self):
        return {
            "train_micro_batch_size_per_gpu": self.batch_size,
            "gradient_accumulation_steps": 1,
            "optimizer": {"type": "Adam"},
            "scheduler": {
                "type": "WarmupDecayLR",
                "params": {
                    "warmup_min_lr": self.warmup_min_lr,
                    "warmup_max_lr": self.warmup_max_lr,
                    "warmup_num_steps": self.warmup_num_steps,
                    "total_num_steps": self.max_iter,
                    "warmup_type": "linear",
                },
            },
            "gradient_clipping": self.gradient_clipping,
        }
    @property
    def cache_dir(self):
        return ".cache" / self.relpath
    @cached_property
    def diskcache(self):
        return diskcache.Cache(self.cache_dir).memoize
 cfg = Config.from_cli()
 if __name__ == "__main__":
    print(cfg)
--- a/vall_e/data.py
+++ b/vall_e/data.py
@ -0,0 +1,294 @@
 import copy
 import logging
 import random
 from collections import defaultdict
 from functools import cache, cached_property
 from itertools import groupby, zip_longest
 from typing import Any
 import numpy as np
 import torch
 from torch import Tensor
 from torch.utils.data import DataLoader, Dataset
 from tqdm import tqdm
 from .config import cfg
 from .sampler import Sampler
 torch.multiprocessing.set_sharing_strategy("file_system")
 _logger = logging.getLogger(__name__)
 def _replace_file_extension(path, suffix):
    return (path.parent / path.name.split(".")[0]).with_suffix(suffix)
 def _get_quant_path(path):
    return _replace_file_extension(path, ".qnt.pt")
 def _load_quants(path) -> Tensor:
    """
    Returns:
        quants: (t q)
    """
    path = _get_quant_path(path)
    return torch.load(path)[0].t()
@cache
 def _get_phones(path):
    path = _replace_file_extension(path, ".phn.txt")
    with open(path, "r", encoding="utf8") as f:
        content = f.read()
    return ["<s>"] + content.split() + ["</s>"]
 def _interleaved_reorder(l, fn):
    groups = defaultdict(list)
    for e in l:
        groups[fn(e)].append(e)
    groups = {k: groups[k] for k in sorted(groups)}
    for interleaved in zip_longest(*groups.values()):
        for value in interleaved:
            if value is not None:
                yield value
@cache
 def _validate(path, min_phones, max_phones):
    phones = _get_phones(path)
    unique_phones = list(set(phones))
    if len(unique_phones) == 0:
        return False
    if len(unique_phones) == 1 and unique_phones[0] == "_":
        return False
    if len(phones) < min_phones:
        return False
    if len(phones) > max_phones:
        return False
    return True
 def _get_spkr_name(path) -> str:
    return path.parts[-2]  # spkr/*.wav
 class VALLEDatset(Dataset):
    def __init__(
        self,
        paths,
        phone_symmap=None,
        spkr_symmap=None,
        min_phones=10,
        max_phones=100,
        training=False,
        extra_paths_by_spkr_name: dict[str, list] = {},
    ):
        super().__init__()
        self._head = None
        self.min_phones = min_phones
        self.max_phones = max_phones
        self.paths = [
            path for path in paths if _validate(path, self.min_phones, self.max_phones)
        ]
        self.spkr_symmap = spkr_symmap or self._get_spkr_symmap()
        self.phone_symmap = phone_symmap or self._get_phone_symmap()
        self.training = training
        self.paths_by_spkr_name = self._get_paths_by_spkr_name(extra_paths_by_spkr_name)
        if training:
            self.sampler = Sampler(self.paths, [_get_spkr_name])
        else:
            self.sampler = None
    def _get_paths_by_spkr_name(self, extra_paths_by_spkr_name: dict[str, list]):
        ret = defaultdict(list)
        for path in self.paths:
            if _get_quant_path(path).exists():
                ret[_get_spkr_name(path)].append(path)
        for k, v in extra_paths_by_spkr_name.items():
            ret[k].extend(v)
        return {**ret}
    @cached_property
    def phones(self):
        return sorted(set().union(*[_get_phones(path) for path in self.paths]))
    def _get_phone_symmap(self):
        # Note that we use phone symmap starting from 1 so that we can safely pad 0.
        return {s: i for i, s in enumerate(self.phones, 1)}
    @cached_property
    def spkrs(self):
        return sorted({_get_spkr_name(path) for path in self.paths})
    def _get_spkr_symmap(self):
        return {s: i for i, s in enumerate(self.spkrs)}
    def sample_prompts(self, spkr_name):
        prom_list = []
        while (
            len(prom_list) == 0
            or random.random() < cfg.p_additional_prompt
            and len(prom_list) < 10
        ):
            path = random.choice(self.paths_by_spkr_name[spkr_name])
            prom_list.append(_load_quants(path))
        prom = torch.cat(prom_list)
        return prom
    def __getitem__(self, index):
        if self.training:
            assert self.sampler is not None
            path = self.sampler.sample()
        else:
            path = self.paths[index]
        spkr_name = _get_spkr_name(path)
        text = torch.tensor([*map(self.phone_symmap.get, _get_phones(path))])
        proms = self.sample_prompts(spkr_name)
        resps = _load_quants(path)
        resp = resps[..., 0]
        return dict(
            path=path,
            spkr_name=spkr_name,
            text=text,
            proms=proms,
            resps=resps,
            resp=resp,
        )
    def head_(self, n):
        self._head = n
    def training_(self, value):
        self.training = value
    def interleaved_reorder_(self, fn):
        self.paths = [*_interleaved_reorder(self.paths, fn)]
    def __len__(self):
        return min(len(self.paths), self._head or len(self.paths))
 def collate_fn(samples: list[dict]):
    batch: dict[str, Any] = {k: [s[k] for s in samples] for k in samples[0]}
    return batch
 def _seed_worker(worker_id):
    worker_seed = torch.initial_seed() % 2**32
    np.random.seed(worker_seed)
    random.seed(worker_seed)
 def _create_dl(dataset, training):
    return DataLoader(
        dataset=dataset,
        batch_size=cfg.batch_size if training else cfg.eval_batch_size,
        shuffle=training,
        drop_last=training,
        num_workers=cfg.nj,
        collate_fn=collate_fn,
        persistent_workers=True,
        worker_init_fn=_seed_worker,
    )
 def _load_train_val_paths():
    paths = []
    train_paths = []
    val_paths = []
    for data_dir in cfg.data_dirs:
        paths.extend(tqdm(data_dir.rglob("**/*.qnt.pt")))
    if len(paths) == 0:
        raise RuntimeError(f"Failed to find any .qnt.pt file in {cfg.data_dirs}.")
    pairs = sorted([(_get_spkr_name(p), p) for p in paths])
    del paths
    for _, group in groupby(pairs, lambda pair: pair[0]):
        paths = sorted([p for _, p in group])
        random.seed(0)
        random.shuffle(paths)
        n = round(len(paths) * 0.95)
        train_paths.extend(paths[:n])
        val_paths.extend(paths[n:])
    train_paths, val_paths = map(sorted, [train_paths, val_paths])
    return train_paths, val_paths
 def _load_test_paths():
    test_paths = []
    for data_dir in cfg.test_data_dirs:
        test_paths.extend(data_dir.rglob("**/*.asr.txt"))
    test_paths = sorted(test_paths)
    return test_paths
@cfg.diskcache()
 def create_datasets():
    train_paths, val_paths = _load_train_val_paths()
    test_paths = _load_test_paths()
    train_dataset = VALLEDatset(train_paths, training=True)
    val_dataset = VALLEDatset(
        val_paths,
        train_dataset.phone_symmap,
        train_dataset.spkr_symmap,
        extra_paths_by_spkr_name=train_dataset.paths_by_spkr_name,
    )
    val_dataset.interleaved_reorder_(_get_spkr_name)
    val_dataset.head_(200)
    test_dataset = VALLEDatset(
        test_paths,
        train_dataset.phone_symmap,
        train_dataset.spkr_symmap,
        extra_paths_by_spkr_name=train_dataset.paths_by_spkr_name,
    )
    return train_dataset, val_dataset, test_dataset
 def create_train_val_dataloader():
    train_dataset, val_dataset, test_dataset = create_datasets()
    train_dl = _create_dl(train_dataset, training=True)
    val_dl = _create_dl(val_dataset, training=False)
    test_dl = _create_dl(test_dataset, training=False)
    _logger.info(str(train_dataset.phone_symmap))
    _logger.info(str(train_dataset.spkr_symmap))
    _logger.info(f"#samples (train): {len(train_dataset)}.")
    _logger.info(f"#samples (val): {len(val_dataset)}.")
    _logger.info(f"#samples (test): {len(test_dataset)}.")
    train200_dataset = copy.deepcopy(train_dataset)
    train200_dataset.interleaved_reorder_(_get_spkr_name)
    train200_dataset.head_(200)
    train200_dataset.training_(False)
    train200_dl = _create_dl(train200_dataset, training=False)
    assert isinstance(train200_dl.dataset, VALLEDatset)
    return train_dl, train200_dl, val_dl, test_dl
 if __name__ == "__main__":
    train_dl, train200_dl, val_dl, test_dl = create_train_val_dataloader()
    sample = train_dl.dataset[0]
    print(sample)
--- a/vall_e/emb/g2p.py
+++ b/vall_e/emb/g2p.py
@ -0,0 +1,50 @@
 import argparse
 import random
 import string
 from functools import cache
 from pathlib import Path
 import torch
 from g2p_en import G2p
 from tqdm import tqdm
@cache
 def _get_model():
    return G2p()
@cache
 def _get_graphs(path):
    with open(path, "r") as f:
        graphs = f.read()
    return graphs
 def encode(graphs: str) -> list[str]:
    g2p = _get_model()
    phones = g2p(graphs)
    ignored = {" ", *string.punctuation}
    return ["_" if p in ignored else p for p in phones]
@torch.no_grad()
 def main():
    parser = argparse.ArgumentParser()
    parser.add_argument("folder", type=Path)
    parser.add_argument("--suffix", type=str, default=".normalized.txt")
    args = parser.parse_args()
    paths = list(args.folder.rglob(f"*{args.suffix}"))
    random.shuffle(paths)
    for path in tqdm(paths):
        phone_path = path.with_name(path.stem.split(".")[0] + ".phn.txt")
        graphs = _get_graphs(path)
        phones = encode(graphs)
        with open(phone_path, "w") as f:
            f.write(" ".join(phones))
 if __name__ == "__main__":
    main()
--- a/vall_e/emb/qnt.py
+++ b/vall_e/emb/qnt.py
@ -2,35 +2,51 @@ import argparse
 from functools import cache
 from pathlib import Path
 import soundfile
 import torch
 import torchaudio
 from einops import rearrange
 from encodec import EncodecModel
 from encodec.utils import convert_audio
 from torch import Tensor
 from tqdm import tqdm
 from ..config import cfg
@cache
 def _load_model(device="cuda"):
    # Instantiate a pretrained EnCodec model
    assert cfg.sample_rate == 24_000
    model = EncodecModel.encodec_model_24khz()
    model.set_target_bandwidth(6.0)
    model.to(device)
    return model
 def unload_model():
    return _load_model.cache_clear()
@torch.inference_mode()
 def decode(codes: Tensor, device="cuda"):
    """
    Args:
-        codes: (b k t)
+        codes: (b q t)
    """
    assert codes.dim() == 3
    model = _load_model(device)
    return model.decode([(codes, None)]), model.sample_rate
-def replace_file_extension(path, suffix):
+def decode_to_file(resps: Tensor, path: Path):
    assert resps.dim() == 2, f"Require shape (t q), but got {resps.shape}."
    resps = rearrange(resps, "t q -> 1 q t")
    wavs, sr = decode(resps)
    soundfile.write(str(path), wavs.cpu()[0, 0], sr)
 def _replace_file_extension(path, suffix):
    return (path.parent / path.name.split(".")[0]).with_suffix(suffix)
@ -46,7 +62,7 @@ def encode(wav, sr, device="cuda"):
    wav = convert_audio(wav, sr, model.sample_rate, model.channels)
    wav = wav.to(device)
    encoded_frames = model.encode(wav)
-    qnt = torch.cat([encoded[0] for encoded in encoded_frames], dim=-1)  # (b k t)
+    qnt = torch.cat([encoded[0] for encoded in encoded_frames], dim=-1)  # (b q t)
    return qnt
@ -59,7 +75,7 @@ def main():
    paths = [*args.folder.rglob(f"*{args.suffix}")]
    for path in tqdm(paths):
-        out_path = replace_file_extension(path, ".qnt.pt")
+        out_path = _replace_file_extension(path, ".qnt.pt")
        wav, sr = torchaudio.load(path)
        if wav.shape[0] == 2:
            wav = wav[:1]
--- a/vall_e/sampler.py
+++ b/vall_e/sampler.py
@ -0,0 +1,48 @@
 """
 A sampler that balances data by key_fns.
 MIT License
 Copyright (c) 2023 Zhe Niu
 niuzhe.nz@outlook.com
 """
 import random
 class Sampler:
    def __init__(self, l, key_fns):
        self.tree = self._build(l, key_fns)
    def _build(self, l, key_fns) -> dict[dict, list]:
        if not key_fns:
            return l
        tree = {}
        key_fn, *key_fns = key_fns
        for x in l:
            k = key_fn(x)
            if k in tree:
                tree[k].append(x)
            else:
                tree[k] = [x]
        for k in tree:
            tree[k] = self._build(tree[k], key_fns)
        return tree
    def _sample(self, tree: dict | list):
        if isinstance(tree, list):
            ret = random.choice(tree)
        else:
            key = random.choice([*tree.keys()])
            ret = self._sample(tree[key])
        return ret
    def sample(self):
        return self._sample(self.tree)
--- a/vall_e/train.py
+++ b/vall_e/train.py
@ -0,0 +1,137 @@
 import json
 import logging
 from collections import defaultdict
 import torch
 from tqdm import tqdm
 from .config import cfg
 from .data import create_train_val_dataloader
 from .emb import qnt
 from .utils import setup_logging, to_device, trainer
 from .vall_e import AR, NAR
 _logger = logging.getLogger(__name__)
 def load_engines():
    if cfg.model.lower() == "ar":
        model = AR(
            cfg.num_tokens,
            cfg.d_model,
            cfg.n_heads,
            cfg.n_layers,
            cfg.p_dropout,
        )
    elif cfg.model.lower() == "nar":
        model = NAR(
            cfg.num_tokens,
            cfg.d_model,
            cfg.n_heads,
            cfg.n_layers,
            cfg.p_dropout,
        )
    else:
        raise NotImplementedError(cfg.model)
    engines = dict(
        model=trainer.Engine(
            model=model,
            config=cfg.ds_cfg,
        ),
    )
    return trainer.load_engines(engines, cfg)
 def main():
    setup_logging(cfg.log_dir)
    train_dl, train200_dl, val_dl, test_dl = create_train_val_dataloader()
    def train_feeder(engines, batch, name):
        model = engines["model"]
        if cfg.model == "ar":
            _ = model(
                text_list=batch["text"],
                proms_list=batch["proms"],
                resp_list=batch["resp"],
            )
        elif cfg.model == "nar":
            _ = model(
                text_list=batch["text"],
                proms_list=batch["proms"],
                resps_list=batch["resps"],
            )
        losses = model.gather_attribute("loss")
        loss = torch.stack([*losses.values()]).sum()
        stats = {}
        stats |= {k: v.item() for k, v in losses.items()}
        stats |= engines.gather_attribute("scalar")
        return loss, stats
    @torch.inference_mode()
    def run_eval(engines, name, dl):
        log_dir = cfg.log_dir / str(engines.global_step) / name
        model = engines["model"]
        log_dir = cfg.log_dir / str(engines.global_step) / name
        stats = defaultdict(list)
        for batch in tqdm(dl):
            batch: dict
            batch = to_device(batch, cfg.device)
            if cfg.model == "ar":
                resp_list = model(text_list=batch["text"], proms_list=batch["proms"])
                resps_list = [r.unsqueeze(-1) for r in resp_list]
            elif cfg.model == "nar":
                resps_list = model(
                    text_list=batch["text"],
                    proms_list=batch["proms"],
                    resp_list=batch["resp"],
                )
            else:
                raise NotImplementedError(cfg.model)
            losses = model.gather_attribute("loss")
            batch_stats = {k: v.item() for k, v in losses.items()}
            for k, v in batch_stats.items():
                stats[k].append(v)
            for path, ref, hyp in zip(batch["path"], batch["resps"], resps_list):
                relpath = path.relative_to(cfg.data_root)
                hyp_path = (log_dir / "hyp" / relpath).with_suffix(".wav")
                ref_path = (log_dir / "ref" / relpath).with_suffix(".wav")
                hyp_path.parent.mkdir(parents=True, exist_ok=True)
                ref_path.parent.mkdir(parents=True, exist_ok=True)
                qnt.decode_to_file(ref, ref_path)
                if len(hyp) > 0:
                    qnt.decode_to_file(hyp, hyp_path)
        stats = {k: sum(v) / len(v) for k, v in stats.items()}
        stats["global_step"] = engines.global_step
        stats["name"] = name
        _logger.info(f"Eval: {stats}.")
        _logger.info(f"{json.dumps(stats)}.")
    def eval_fn(engines):
        run_eval(engines, "train200", train200_dl)
        run_eval(engines, "val", val_dl)
        run_eval(engines, "test", test_dl)
    trainer.train(
        engines_loader=load_engines,
        train_dl=train_dl,
        train_feeder=train_feeder,
        eval_fn=eval_fn,
    )
 if __name__ == "__main__":
    main()