PhD thesis “Confidence Measures for Automatic and Interactive Speech Recognition”, by Isaías Sánchez-Cortina: abstract

[EN] Abstract of the PhD thesis “Confidence Measures for Automatic and Interactive Speech Recognition”, by Isaías Sánchez-Cortina (advisors: Alfons Juan Ciscar and Alberto Sanchis)

[CA] Resum de la tesi doctoral “Mesures de confiança per al reconeixement de la parla automàtic i interactiu”, per Isaías Sánchez Cortina (directors: Alfons Juan Ciscar i Alberto Sanchis)

[ES] Resumen de la tesis doctoral “Medidas de confianza para el reconocimiento del habla automático e interactivo”, por Isaías Sánchez Cortina (directores: Alfons Juan Ciscar y Alberto Sanchis)

Find here the full text of this PhD dissertation

English

This dissertation contributes to the field of Automatic Speech Recognition (ASR) and, in particular, to Interactive Speech Transcription (IST) and Confidence Measures (CM) for ASR.

Scientific Goals:

To design IST methods and tools to tackle the problem of improving automatically generated transcripts.
To assess the designed IST methods and tools on real-life tasks of transcription in large educational repositories of video lectures.
To improve the reliability of IST by improving the underlying CM.

Automatic Speech Recognition (ASR) is a crucial task in a broad range of important applications which could not accomplished by means of manual transcription. ASR can provide cost-effective transcripts in scenarios of increasing social impact such as Massive Open Online Courses (MOOCs), for which the availability of accurate enough transcriptions is crucial even if they are not flawless. Transcriptions enable searchability, summarization, recommendation, translation; they make the contents accessible to non-native speakers and users with disabilities, etc. Their usefulness is such that students improve their academic performance when learning from subtitled video lectures even when the transcription is not perfect.

Unfortunately, current ASR technology is still far from the necessary accuracy. The imperfect transcriptions resulting from ASR can be manually supervised and corrected, but the effort can be even higher than manual transcription. In order to alleviate this issue, a novel Interactive Speech Transcription (IST) system is presented in this thesis. This IST system has succeeded in reducing the effort if a small quantity of errors can be allowed; and also in improving the underlying ASR models in a cost-effective way.

In order to adequate the proposed framework into real-life MOOCs, other intelligent interaction methods involving limited user effort were investigated. In addition to that, a new method was introduced which benefits from user interactions to improve automatically the unsupervised parts (Constrained Search (CS)).

The research conducted was deployed through a web-based IST platform with which it was possible to produce a massive number of semi-supervised lectures from two different well-known repositories, Videolectures.net and Polimèdia.

Finally, the performance of IST and ASR systems can be easily increased by improving the computation of the Confidence Measures (CM) of transcribed words. Thus, two contributions were developed: a new discriminative Logistic Regression (LR) model; and speaker adaptation of the CM for cases in which it is possible, such as with MOOCs.

Català

Aquest treball contribueix al camp del reconeixement automàtic de la parla (RAP). I, en especial, al de la transcripció interactiva de la parla (TIP) i al de les mesures de confiança (MC) per a RAP.

Els objectius principals són els següents:

Disseny de mètodes i eines TIP per millorar les transcripcions automàtiques.
Avaluació dels mètodes i eines TIP dissenyats en tasques realistes extretes de grans repositoris de vídeos educacionals.
Millora de la fiabilitat de la TIP mitjançant la millora de les MC.

El reconeixement automàtic de la parla (RAP) és una tasca crucial per una àmplia gamma d’aplicacions importants que no es poden dur a terme per mitjà de la transcripció manual. El RAP pot proporcionar transcripcions en escenaris de creixent impacte social com el cursos online oberts massius (MOOC). Les transcripcions permeten automatitzar tasques com ara cercar, resumir, recomanar, traduir; a més a més, fa accessibles els continguts per als parlants no nadius i els usuaris amb discapacitats, entre d’altres. Fins i tot, pot millorar el rendiment acadèmic d’estudiants que aprenen de xerrades amb subtítols, encara que aquests subtítols no siguen perfectes.

Malauradament, la tecnologia RAP actual encara està lluny de la precisió necessària. Les transcripcions imperfectes resultants del RAP poden ser corregides manualment, però aquest l’esforç pot acabar sent superior a la transcripció manual. Per tal de resoldre aquest problema, en aquest treball es presenta un sistema nou per a transcripció interactiva de la parla (TIP). Aquest sistema TIP ha reeixit en la reducció de l’esforç quan es pot permetre una certa quantitat d’errors; així com també en la millora dels models RAP subjacents.

Per tal d’adequar el marc proposat per a cursos MOOC, també es van investigar altres mètodes d’interacció intel·ligents amb esforç limitat de l’usuari. A més a més, es va introduir un nou mètode que aprofita les interaccions per tal de millorar encara més les parts no supervisades (RAP amb cerca restringida).

La investigació en TIP duta a terme es va desplegar en una plataforma web amb la qual va ser possible produir un nombre massiu de transcripcions semi-supervisades de xerrades de dos repositoris ben coneguts dins del projecte de recerca europeu transLectures: Videolectures.net i Polimèdia.

Finalment, el rendiment de la TIP i dels sistemes de RAP es pot augmentar directament mitjançant la millora de l’estimació de la mesura de confiança (MC) de les paraules transcrites. Per tant, es van desenvolupar dues contribucions: un nou model discriminatiu logístic (LR); i l’adaptació al locutor de la MC per als casos en que és possible, per exemple en cursos MOOC.

Castellano

Este trabajo contribuye en el campo del reconocimiento automático del habla (RAH). Y, en especial, en el de la transcripción interactiva del habla (TIH) y el de las medidas de confianza (MC) para RAH.

Los objetivos principales son los siguientes:

Diseño de métodos y herramientas TIH para mejorar las transcripciones automáticas.
Evaluación de los métodos y herramientas TIH diseñados empleando tareas de transcripción realistas extraídas de grandes repositorios de vídeos educacionales.
Mejora de la fiabilidad del TIH mediante la mejora de las MC.

El reconocimiento automático del habla (RAH) es una tarea crucial en una amplia gama de aplicaciones importantes que no podrían realizarse mediante transcripción manual. El RAH puede proporcionar transcripciones rentables en escenarios de creciente impacto social como el de los cursos abiertos en linea masivos (MOOC), para el que la disponibilidad de transcripciones es crucial, incluso cuando no son completamente perfectas. Las transcripciones permiten la automatización de procesos como buscar, resumir, recomendar, traducir; hacen que los contenidos sean más accesibles para hablantes no nativos y usuarios con discapacidades, etc. Incluso se ha comprobado que mejora el rendimiento de los estudiantes que aprenden de videos con subtítulos aun cuando estos no son completamente perfectos.

Desafortunadamente, la tecnología RAH actual aún está lejos de la precisión necesaria. Las transcripciones imperfectas resultantes del RAH pueden ser supervisadas y corregidas manualmente, pero el esfuerzo puede ser incluso superior al de la transcripción manual. Con el fin de aliviar este problema, esta tesis presenta un novedoso sistema de transcripción interactiva del habla (TIH). Este método TIH consigue reducir el esfuerzo de semi-supervisión siempre que sea aceptable una pequeña cantidad de errores; además mejora a la par los modelos RAH subyacentes.

Con objeto de transportar el marco propuesto para cursos MOOC, también se investigaron otros métodos de interacción inteligentes que involucran esfuerzo limitado por parte del usuario. Además, se introdujo un nuevo método que aprovecha las interacciones para mejorar aún más las partes no supervisadas (RAH con búsqueda restringida).

La investigación en TIH llevada a cabo se desplegó en una plataforma web con la que fue posible producir un número masivo de transcripciones de vídeos de dos conocidos repositorios, Videolectures.net y Polimèdia.

Por último, el rendimiento de la TIH y los sistemas de RAH se puede aumentar directamente mediante la mejora de la estimación de la medida de confianza (MC) de las palabras transcritas. Por este motivo se desarrollaron dos contribuciones: un nuevo modelo discriminativo logístico (LR); y la adaptación al locutor de la MC para los casos en que es posible, como por ejemplo en cursos MOOC.