Por favor, use este identificador para citar o enlazar este ítem: http://repositoriodigital.ipn.mx/handle/123456789/5686
Registro completo de metadatos
Campo DC Valor Lengua/Idioma
dc.contributor.advisorSidorov, Grigori-
dc.contributor.advisorJiménez Salazar, Héctor-
dc.contributor.authorPosadas Durán, Juan Pablo Francisco-
dc.date.accessioned2012-06-26T20:45:38Z-
dc.date.available2012-06-26T20:45:38Z-
dc.date.issued2011-
dc.identifier.urihttp://www.repositoriodigital.ipn.mx/handle/123456789/5686-
dc.descriptionMaestría en Ciencias de la Computaciónes
dc.description.abstractUna de las líneas de investigación del Procesamiento de Lenguaje Natural se enfoca en automatizar la alineación de textos paralelos. La utilidad que presenta los textos paralelos alineados es que muestran de manera explícita la relación que existe entre los elementos de un texto en un idioma y los elementos del mismo texto traducido en otro idioma. En este trabajo de tesis, se plantea un método para la alineación de textos paralelos a nivel de oraciones escritos en los idiomas español e inglés, el cuál utiliza información léxica y estadística bajo un enfoque de programación dinámica. El método utiliza la información léxica contenida en un diccionario bilingüe español–inglés de propósito general restringido (incompleto), así como, el número de elementos significativos y la longitud de la oración medida en términos de caracteres. El método propuesto se probó en un corpus de textos literarios no balanceados (textos en los que la frecuencia de aparición de alineaciones múltiples, omisiones e inserciones es mayor), en el que reportó una efectividad superior al 90%. Se compararon los resultados obtenidos por el método propuesto contra los obtenidos por el sistema Vanilla aligner (utiliza un enfoque estadístico) utilizando el mismo corpus y se encontró que el método desarrollado fue superior, mostrando un buen desempeño en casos de alineaciones múltiples, omisiones e inserciones. Por los resultados obtenidos se observa que el uso de la información léxica contenida en un diccionario bilingüe de uso general e información estadística en el método propuesto, hacen de éste un método robusto para realizar la alineación a nivel de oraciones en textos que no presentan una traducción técnica con respecto a métodos exclusivamente estadísticos. // Parallel texts alignment is one line of research in Natural Language Processing. The utility of aligned parallel texts is that it shows explicitly the relationship between the elements in a text in one language and elements of the same text translated into another language. In this thesis, we propose a method for sentence alignment in parallel texts written in Spanish and English, it uses lexical and statistical information in a dynamic programming framework. The lexical information used is the one contained in a bilingual Spanish-English dictionary limited (incomplete) and for general purpose, as well as the sentence length measured in terms of words and in terms of characters. The proposed method was tested on a corpus of unbalanced literary texts (texts in which the frequency of multiple alignments, omissions and insertions is greater), where we reach a precision aobove the 90%. We compared our results obtained by the proposed method against those obtained by the Vanilla aligner system (which uses a statistical approach)with the same corpus and found that the developed method is superior, particularly in cases of multiple alignments, omissions and insertions. The results we obtained show that the use of lexical information contained in a bilingual dictionary of general use and statistical information, make this a robust method for sentence alignment in texts that don´t have a technical translation with respect to statistical methods alone.es
dc.description.sponsorshipInstituto Politécnico Nacional. CICes
dc.language.isoeses
dc.publisherInstituto Politécnico Nacional. Centro de Investigación en Computaciónes
dc.subjectNatural language processing (Computer science)es
dc.titleCompilación de un corpus paralelo español-inglés alineado a nivel de oracioneses
dc.typeThesises
dc.description.especialidadFísico-Matemáticases
dc.description.tipoPDFes
Aparece en las colecciones: Maestría

Ficheros en este ítem:
Fichero Descripción Tamaño Formato  
Tesis12362.pdf1.75 MBAdobe PDFVisualizar/Abrir


Los ítems de DSpace están protegidos por copyright, con todos los derechos reservados, a menos que se indique lo contrario.