Text segmentation by language

No hay miniatura disponible

Fecha

2016-07-01

Director de tesis/Asesor

Título de la revista

ISSN de la revista

Título del volumen

Publicador

Facultad de Ingeniería

Editor

Compartir

Resumen

There are two approaches for text segmentation by language: first, assuming that language changes ha-ppen in the “border” between sentences (never within a sentence); second, assuming that language changes can happen anyplace in the text. This work presents methods for both types of text’s segmentation by languages. On the first pro-posal, the text is initially segmented by sentence, then the language of each sentence is obtained; the second proposal is an adaptation of hidden Markov model to this task. Both cases, according to results obtained in experimental proofs, exceed the state of art.

Descripción

La segmentación de textos por idioma puede ser abordada de dos maneras: la primera, asumiendo que los cambios de idioma solo ocurren en los saltos entre oraciones; y la segunda, asumiendo que el idioma puede cambiar en cualquier lugar del texto. En este trabajo se presentan métodos para segmentar ambos tipos de textos por idiomas. Para el primer caso se segmenta el texto a analizar por oraciones y luego se identifica el idioma de cada oración; la segunda propuesta consiste en la adaptación de los modelos ocultos de Markov a la tarea de segmentación de textos por idiomas. El estado del arte es superado por ambas propuestas, según los resultados obtenidos en la experimentación realizada.

Palabras clave

Citación

ARK

ARXIV

Barcode

Bibcode

EAN13

DOI

https://doi.org/10.18046/syt.v14i38.2289

EISSN

GOVDOC

Handle

IGSN

ISBN

ISMN

ISSN

1692-5238

ISTC

ISSN-L

LSID

Local

Other

http://www.icesi.edu.co/revistas/index.php/sistemas_telematica/article/view/2289

OLIB

PISSN

PMID

PURL

SICI

Slug

SoundCloud

UPC

URL

URN

YouTube

WOS