(finally) added parallel AR for cfg.model.version >= 7 (nvidia/audio-codec-44khz is being a pain and it might require training purely AR first......)

2025-02-23 08:31:03 -06:00 · 2025-02-23 08:31:03 -06:00 · 67a6009555
commit 67a6009555
parent 15b3c20e19
2 changed files with 189 additions and 14 deletions
--- a/vall_e/data.py
+++ b/vall_e/data.py
@ -757,21 +757,20 @@ def _load_paths_from_metadata(group_name, type="training", validate=False):
 	if len(metadata) == 0:
 		return _fn( data_dir, type if cfg.dataset.use_hdf5 else _get_artifact_extension(), validate )

+	# this might be slow
+	def _exists( id, entry ):
+		if not cfg.dataset.strict_validate:
+			return True
+		
+		if cfg.dataset.use_hdf5:
+			return key(id, entry) in cfg.hdf5
+
+		return (data_dir / id).with_suffix(_get_artifact_extension()).exists()
+
 	def _validate( id, entry ):
 		phones = entry['phones'] if "phones" in entry else 0
 		duration = entry['duration'] if "duration" in entry else 0

-		k = key(id, entry)
-		
-		# double check if in HDF5
-		# this might be slow
-		if cfg.dataset.strict_validate:
-			if cfg.dataset.use_hdf5:
-				if k not in cfg.hdf5:
-					return False
-			elif not (data_dir / id).with_suffix(_get_artifact_extension()).exists():
-				return False
-
 		# add to duration bucket
 		if type not in _durations_map:
 			_durations_map[type] = {}
@ -780,7 +779,11 @@ def _load_paths_from_metadata(group_name, type="training", validate=False):
 		if not validate:
 			return True

-		return cfg.dataset.min_duration <= duration and duration <= cfg.dataset.max_duration
+		in_bounds = cfg.dataset.min_duration <= duration and duration <= cfg.dataset.max_duration
+		if in_bounds and not _exists( id, entry ):
+			return False
+
+		return in_bounds

 	return [ key(id, entry) for id, entry in metadata.items() if _validate(id, entry) ]

--- a/vall_e/models/ar_nar.py
+++ b/vall_e/models/ar_nar.py
@ -1042,6 +1042,158 @@ class AR_NAR(Base):

 		return sequence_list

+	def forward_ar_parallel(
+		self,
+
+		task_list: list[Tensor],
+
+		text_list: list[Tensor] | None = None,
+		raw_text_list: list[Tensor] | None = None,
+		proms_list: list[Tensor] | None = None,
+		resps_list: list[Tensor] | None = None,
+		lang_list: list[Tensor] | None = None,
+		tone_list: list[Tensor] | None = None,
+		len_list: list[Tensor] | None = None,
+
+		disable_tqdm=False,
+		use_lora=None,
+		**sampling_kwargs,
+	):
+		# deduce batch_size
+		if text_list:
+			device = text_list[0].device
+			batch_size = len(text_list)
+		elif raw_text_list:
+			device = raw_text_list[0].device
+			batch_size = len(raw_text_list)
+		elif proms_list:
+			device = proms_list[0].device
+			batch_size = len(proms_list)
+		elif resps_list:
+			device = resps_list[0].device
+			batch_size = len(resps_list)
+
+		if cfg.lora is not None:
+			enable_lora( self, cfg.lora.active_level( 0 ) if use_lora is None else use_lora )
+
+		# convert AR specific args
+		sampling_kwargs = convert_kwargs( sampling_kwargs, "ar_" )
+
+		temperature = sampling_kwargs.get("temperature", 1.0)
+		cfg_strength = sampling_kwargs.get("cfg_strength", 0.0)
+		cfg_rescale = sampling_kwargs.pop("cfg_rescale", 0.7)
+		min_temperature = sampling_kwargs.get("min_temperature", -1.0)
+		max_duration = sampling_kwargs.get("max_duration", 500)
+		beam_width = sampling_kwargs.get("beam_width", 0)
+		entropix_sampling = sampling_kwargs.get("entropix_sampling", False)
+		refine_on_stop = sampling_kwargs.get("refine_on_stop", False)
+		input_prompt_prefix = sampling_kwargs.get("input_prompt_prefix", False)
+		layer_skip = sampling_kwargs.get("layer_skip", False)
+		prefix_silence = sampling_kwargs.get("prefix_silence", 0.0)
+		mirostat_tau = sampling_kwargs.get("mirostat_tau", 0.0)
+		mirostat_eta = sampling_kwargs.get("mirostat_eta", 0.0)
+
+		start_slice = [ 0 for _ in range(batch_size) ]
+		sequence_list = [ torch.zeros((0, 8), device=device).to(torch.int16) for _ in range(batch_size) ]
+		stopped = torch.zeros(batch_size, device=device).bool()
+		
+		audio_stop_token = self.stop_token
+		text_stop_token = 2
+
+		state = None
+		mirostat = [
+			{"n": 1024, "tau": mirostat_tau, "eta": mirostat_eta, "max_surprise": mirostat_eta * 2, "error_surprise": 0, "running_total_surprise": 0}
+		] * batch_size if mirostat_tau > 0.0 else None
+
+		scores = [ 1.0 ] * beam_width
+		metrics = []
+
+		null_text = [ torch.tensor([1, 2], device=device, dtype=torch.int16) for _ in range(batch_size) ]
+		null_prom = [ None for _ in range(batch_size) ]
+
+		# get next in sequence
+		iterator = trange(max_duration // max(1, self.causal_size), desc="AR", disable=disable_tqdm)
+		for n in iterator:
+			if raw_text_list is not None:
+				raw_text_list = [ sequence_list[i] if task in text_task else raw_text_list[i] for i, task in enumerate(task_list) ]
+			else:
+				text_list = [ sequence_list[i] if task in text_task else text_list[i] for i, task in enumerate(task_list) ]
+			resps_list = [ sequence_list[i] if task not in text_task else resps_list[i] for i, task in enumerate(task_list) ]
+
+			quant_levels = [ 0 for _ in range( max( batch_size, beam_width ) ) ]
+
+			inputs = self.inputs(
+				task_list=task_list,
+				
+				text_list=text_list,
+				proms_list=proms_list,
+				resps_list=resps_list,
+				
+				lang_list=lang_list,
+				tone_list=tone_list,
+				len_list=len_list,
+				raw_text_list=raw_text_list,
+				
+				quant_levels=quant_levels,
+			)
+
+			# to-do: find an elegant way to write this
+			output = super().forward(
+				inputs=inputs,
+				state=state,
+				#layer_skip_variables=sampling_layer_skip_variables,
+				output_attentions=entropix_sampling,
+			)
+
+			if cfg_strength > 0:
+				null_inputs = super().inputs(
+					text_list=null_text,
+					proms_list=null_prom,
+					resps_list=resps_list,
+					lang_list=lang_list,
+					tone_list=tone_list,
+					quant_levels=quant_levels,
+				)
+				null_output = super().forward(
+					inputs=null_inputs,
+					quant_levels=quant_levels,
+					#layer_skip_variables=sampling_layer_skip_variables,
+				)
+				logits = cfg_logits( logits=output.logits, null=null_output.logits, strength=cfg_strength, rescale=cfg_rescale, lens=[ resp.shape[0] + 1 for resp in resps_list ] )
+			
+			logits, state = output.logits, output.state
+
+			l_resps_list = [ [] for _ in range(batch_size) ]
+			for l in range(self.n_resp_levels):
+				sampled = super().sample(
+					logits=[ logit[l] for logit in logits ],
+					prev_list=[ resp[..., l] for resp in resps_list ],
+					**(sampling_kwargs | {"attentions": output.attentions if entropix_sampling else None}),
+				)
+
+				ids = sampled.ids
+
+				# append tokens
+				for i, token in enumerate(ids):
+					if audio_stop_token in token:
+						stopped[i] = True
+					l_resps_list[i].append(token.to(device))
+
+			for i, l in enumerate(l_resps_list):
+				sequence_list[i] = torch.cat([sequence_list[i], torch.stack(l, dim=-1)])
+
+			# stop token found
+			# stopped |= r == stop_token
+			if stopped.all().item():
+				iterator.close()
+				break
+
+		for i, l in enumerate( sequence_list ):
+			index = (l == audio_stop_token).nonzero()[:, 0].min()
+			sequence_list[i] = sequence_list[i][:index]
+
+		return sequence_list
+
 	def forward(
 		self,
 		task_list: list[Tensor] | None = None,
@ -1169,6 +1321,25 @@ class AR_NAR(Base):
 				**sampling_kwargs,
 			)

+		if self.version >= 7:
+			if task_list is None or task_list[0] != "len":
+				return self.forward_ar_parallel(
+					task_list=task_list,
+					
+					text_list=text_list,
+					proms_list=proms_list,
+					resps_list=resps_list,
+					
+					lang_list=lang_list,
+					tone_list=tone_list,
+					len_list=len_list,
+					raw_text_list=raw_text_list,
+
+					disable_tqdm=disable_tqdm,
+					use_lora=use_lora,
+					**sampling_kwargs,
+				)
+
 		# is AR
 		return self.forward_ar(
 			task_list=task_list,
@ -1407,7 +1578,8 @@ def example_usage():
 			resps_list = engine( text_list=text_list, proms_list=proms_list, len_list=len_list )
 		else:
 			resps_list = engine( text_list=text_list, proms_list=proms_list, task_list=["tts"], max_duration=steps, temperature=1.0 )
-			resps_list = engine( text_list=text_list, proms_list=proms_list, resps_list=resps_list, temperature=0.0 )
+			if resps_list[0].dim() == 1 or resps_list[0].shape[-1] == 1:
+				resps_list = engine( text_list=text_list, proms_list=proms_list, resps_list=resps_list, temperature=0.0 )

 		for i, o in enumerate(resps_list):
 			print( o.shape, o )
@ -1444,7 +1616,7 @@ def example_usage():
 	"""
 	
 	for task in available_tasks:
-		sample("final", task="tts-nar")
+		sample("final", task=task)

 	engines.quit()