Esta investigación se plantea como una contribución a la mejora de la calidad de los subtítulos de los programas en directo mediante la incorporación de tecnología que permita la sincronización y la restauración de los signos de puntuación de forma automática.
Para el componente de sincronización se han resuelto dos problemas: detectar dentro del flujo de audio, representado por el flujo de palabras, los segmentos relacionados con el subtítulo correspondiente y determinar los instantes de presentación y desaparición este.
Para identificar el segmento se utiliza una técnica de alineamiento entra la secuencia de palabras del flujo con la secuencia de palabras de los subtitulo
Para ello se ha desarrollado un algoritmo que determina la mejor alineación posible del texto de los subtítulos y el flujo de palabras mediante algoritmos en programación dinámica como los de Needleman-Wunsch o Smith-Waterman. Se ha definido un índice de calidad del alineamiento que una vez que supera un umbral determina si la asociación entre el segmento de audio y el subtítulo es correcta. Una vez que se determina esta asociación se utilizan las marcas temporales de las palabras del flujo para determinar los tiempos de aparición y desaparición.
En algunas ocasiones no es posible establecer una asociación por alineamiento, en este caso se han desarrollado dos algoritmos adicionales. Un algoritmo de interpolación se produce cuando dado tres subtítulos, el primero y el tercero se han asignado correctamente pero el segundo no y un algoritmo de inercia, cuando un subtítulo todavía no ha sido asignado y se ha excedido el tiempo máximo de almacenamiento.
Se han definido 5 escenarios experimentales con programas en directo con diferentes características. En los escenarios del tipo informativo el 90% de los subtítulos se ha sincronizado con un margen de 1 segundo frente a la sincronización manual, en el magazín se alcanza el 84%. Para los programas de deporte y entretenimiento se alcanza el 78,7% y 66% respectivamente, siendo estos los escenarios con mayor dificultad.
Respecto al componente de restauración se ha seleccionado una estrategia basada en redes neuronales orientadas a resolver una tarea de clasificación de palabras, asignando un signo de puntuación, o su ausencia, a cada una de las palabras del subtítulo. Los signos clasificados son: ‘.,¿?¡!:,’ y la ausencia de puntuación.
Para ello se han estudiado dos arquitecturas: Una basada en una red neuronal recurrente bidireccional (BiRNN) y una arquitectura Transformer (BERT). Para la arquitectura BERT se parte del modelo preentrenado RoBERTa-bne-base (Gutiérrez-Fandiño et al., 2022)., este modelo es una arquitectura RoBERTa-base entrenada en la tarea Masked Language Model (MLM) utilizando como corpus los fondos de la Biblioteca Nacional de España.
Para el entrenamiento de los modelos se han seleccionado los siguientes corpus: uno basado en las transcripciones en castellano de las sesiones del Parlamento Europeo (Europarl), un segundo corpus formado por las transcripciones en castellano del Parlamento Vasco (Mintzai) y dos corpus más, EuroparlSQ y MintzaISQ derivados de los anteriores añadiendo un fichero de preguntas y respuestas basado en el corpus SQUAD