PhD thesis “Different Contributions to Cost-Effective Transcription and Translation of Video Lectures”, by Joan Albert Silvestre-Cerdà: abstract

[EN] Abstract of the PhD thesis “Different Contributions to Cost-Effective Transcription and Translation of Video Lectures”, by Joan Albert Silvestre-Cerdà (advisors: Alfons Juan Ciscar and Jorge Civera Saiz)

[CA] Resum de la tesi doctoral “Diverses contribucions a la transcripció i traducció eficients de vídeos docents”, per Joan Albert Silvestre Cerdà (directors: Alfons Juan Ciscar i Jorge Civera Saiz)

[ES] Resumen de la tesis doctoral “Diversas contribuciones a la transcripción y traducción eficientes de vídeos docentes”, por Joan Albert Silvestre Cerdà (directores: Alfons Juan Ciscar y Jorge Civera Saiz)

Find here the full text of this PhD dissertation

English

In recent years, online multimedia repositories have experienced a strong growth that has consolidated them as essential knowledge assets, especially in the area of education, where large repositories of video lectures have been built in order to complement or even replace traditional teaching methods. However, most of these video lectures are neither transcribed nor translated due to a lack of cost-effective solutions to do so in a way that provides accurate enough results. Solutions of this kind are clearly necessary in order to make these lectures accessible to speakers of different languages and to people with hearing disabilities. They would also facilitate lecture searchability and analysis functions, such as classification, recommendation or plagiarism detection, as well as the development of advanced educational functionalities like content summarisation to assist student note-taking.

For this reason, the main aim of this thesis is to develop a cost-effective solution capable of transcribing and translating video lectures to a reasonable degree of accuracy. More specifically, we address the integration of state-of-the-art techniques in Automatic Speech Recognition and Machine Translation into large video lecture repositories to generate high-quality multilingual video subtitles without human intervention and at a reduced computational cost. Also, we explore the potential benefits of the exploitation of the information that we know a priori about these repositories, that is, lecture-specific knowledge such as speaker, topic or slides, to create specialised, in-domain transcription and translation systems by means of massive adaptation techniques.

The proposed solutions have been tested in real-life scenarios by carrying out several objective and subjective evaluations, obtaining very positive results. The main technological outcome derived from this thesis, the transLectures-UPV Platform (TLP), has been publicly released as open-source software, and, at the time of writing, it is serving automatic transcriptions and translations for several thousands of video lectures in Spanish and European universities and institutions.

Català

Durant aquests darrers anys, els repositoris multimèdia en línia han experimentat un gran creixement que els ha fet consolidar-se com a fonts fonamentals de coneixement, especialment en l’àrea de l’educació, on s’han creat grans repositoris de vídeo xarrades educatives per tal de complementar o fins i tot reemplaçar els mètodes d’ensenyament tradicionals. No obstant això, la majoria d’aquestes xarrades no estan transcrites ni traduïdes degut a l’absència de solucions de baix cost capaces de fer-ho garantint una qualitat mínima acceptable. Solucions d’aquest tipus són clarament necessàries per a fer que les vídeo xarres siguen més accessibles per a parlants d’altres llengües o per a persones amb discapacitats auditives. A més, aquestes solucions podrien facilitar l’aplicació de funcions de cerca i d’anàlisi tals com classificació, recomanació o detecció de plagis, així com el desenvolupament de funcionalitats educatives avançades, com per exemple la generació de resums automàtics de continguts per ajudar a l’estudiant a prendre anotacions.

Per aquest motiu, el principal objectiu d’aquesta tesi és desenvolupar una solució de baix cost capaç de transcriure i traduir vídeo xarrades amb un nivell de qualitat raonable. Més específicament, abordem la integració de tècniques avançades de Reconeixement Automàtic de la Parla i Traducció Automàtica en grans repositoris de vídeo xarrades educatives per a la generació de subtítols multilingües d’alta qualitat sense requerir intervenció humana i amb un cost computacional reduït. A més, també explorem els beneficis potencials que comportaria l’explotació de la informació de què disposem a priori sobre aquests repositoris, és a dir, coneixements específics sobre les xarrades tals com el locutor, la temàtica o les transparències, per a crear sistemes de transcripció i traducció especialitzats mitjançant tècniques d’adaptació massiva.

Les solucions proposades en aquesta tesi han estat provades en escenaris reals amb nombroses avaluacions objectives i subjectives, en les quals s’han obtingut molt bons resultats. El principal llegat tecnològic d’aquesta tesi, el programari The transLectures-UPV Platform (TLP), ha estat publicat com a programari de codi obert, i, en el moment d’escriure aquestes línies, està proveïnt transcripcions i traduccions automàtiques per a milers de vídeo xarrades educatives en universitats i institucions espanyoles i europees.

Castellano

Durante estos últimos años, los repositorios multimedia on-line han experimentado un gran crecimiento que les ha hecho establecerse como fuentes fundamentales de conocimiento, especialmente en el área de la educación, donde se han creado grandes repositorios de vídeo charlas educativas para complementar e incluso reemplazar los métodos de enseñanza tradicionales. No obstante, la mayoría de estas charlas no están transcritas ni traducidas debido a la ausencia de soluciones de bajo coste que sean capaces de hacerlo garantizando una calidad mínima aceptable. Soluciones de este tipo son claramente necesarias para hacer que las vídeo charlas sean más accesibles para hablantes de otras lenguas o para personas con discapacidades auditivas. Además, dichas soluciones podrían facilitar la aplicación de funciones de búsqueda y de análisis tales como clasificación, recomendación o detección de plagios, así como el desarrollo de funcionalidades educativas avanzadas, como por ejemplo la generación de resúmenes automáticos de contenidos para ayudar al estudiante a tomar apuntes.

Por este motivo, el principal objetivo de esta tesis es desarrollar una solución de bajo coste capaz de transcribir y traducir vídeo charlas con un nivel de calidad razonable. Más específicamente, abordamos la integración de técnicas avanzadas de Reconocimiento Automático del Habla y Traducción Automática en grandes repositorios de vídeo charlas educativas para la generación de subtítulos multilingües de alta calidad sin requerir intervención humana y con un reducido coste computacional. Además, también exploramos los beneficios potenciales que conllevaría la explotación de la información de la que disponemos a priori sobre estos repositorios, es decir, conocimientos específicos sobre las charlas tales como el locutor, la temática o las transparencias, para crear sistemas de transcripción y traducción especializados mediante técnicas de adaptación masiva.

Las soluciones propuestas en esta tesis han sido probadas en escenarios reales llevando a cabo numerosas evaluaciones objetivas y subjetivas, habiéndose obtenido muy buenos resultados. El principal legado tecnológico de esta tesis, el software The transLectures-UPV Platform (TLP), ha sido publicado como software de código abierto, y, en el momento de escribir estas líneas, está proporcionando transcripciones y traducciones automáticas para miles de vídeo charlas educativas en universidades e instituciones españolas y europeas.