Logo_Icesi
 

Text segmentation by language

dc.audienceComunidad Universidad Icesi – Investigadores
dc.citation.volume14
dc.contributor.authorRuiz, Robin Cabezaspa
dc.coverage.spatialCali de Lat: 03 24 00 N degrees minutes Lat: 3.4000 decimal degrees Long: 076 30 00 W degrees minutes Long: -76.5000 decimal degrees.
dc.date.accessioned2017-05-27T02:24:16Z
dc.date.available2017-05-27T02:24:16Z
dc.date.issued2016-07-01
dc.descriptionLa segmentación de textos por idioma puede ser abordada de dos maneras: la primera, asumiendo que los cambios de idioma solo ocurren en los saltos entre oraciones; y la segunda, asumiendo que el idioma puede cambiar en cualquier lugar del texto. En este trabajo se presentan métodos para segmentar ambos tipos de textos por idiomas. Para el primer caso se segmenta el texto a analizar por oraciones y luego se identifica el idioma de cada oración; la segunda propuesta consiste en la adaptación de los modelos ocultos de Markov a la tarea de segmentación de textos por idiomas. El estado del arte es superado por ambas propuestas, según los resultados obtenidos en la experimentación realizada.
dc.description.abstractThere are two approaches for text segmentation by language: first, assuming that language changes ha-ppen in the “border” between sentences (never within a sentence); second, assuming that language changes can happen anyplace in the text. This work presents methods for both types of text’s segmentation by languages. On the first pro-posal, the text is initially segmented by sentence, then the language of each sentence is obtained; the second proposal is an adaptation of hidden Markov model to this task. Both cases, according to results obtained in experimental proofs, exceed the state of art.spa
dc.format.extent9 páginas
dc.format.mediumDigital
dc.format.mimetypeapplication/pdf
dc.identifier.doihttps://doi.org/10.18046/syt.v14i38.2289
dc.identifier.instnameinstname:Universidad Icesi
dc.identifier.issn1692-5238
dc.identifier.otherhttp://www.icesi.edu.co/revistas/index.php/sistemas_telematica/article/view/2289
dc.identifier.reponamereponame:Biblioteca Digital
dc.identifier.repourlrepourl:https://repository.icesi.edu.co/
dc.identifier.urihttps://hdl.handle.net/10906/81510
dc.language.isospa
dc.publisherFacultad de Ingeniería
dc.publisher.placeSantiago de Cali
dc.relation.citationendpage74
dc.relation.citationstartpage65
dc.relation.ispartofSistemas & Telemática, Vol. 14, No. 38 - 2016
dc.rightsEL AUTOR, expresa que la obra objeto de la presente autorización es original y la elaboró sin quebrantar ni suplantar los derechos de autor de terceros, y de tal forma, la obra es de su exclusiva autoría y tiene la titularidad sobre éste. PARÁGRAFO: en caso de queja o acción por parte de un tercero referente a los derechos de autor sobre el artículo, folleto o libro en cuestión, EL AUTOR, asumirá la responsabilidad total, y saldrá en defensa de los derechos aquí autorizados; para todos los efectos, la Universidad Icesi actúa como un tercero de buena fe. Esta autorización, permite a la Universidad Icesi, de forma indefinida, para que en los términos establecidos en la Ley 23 de 1982, la Ley 44 de 1993, leyes y jurisprudencia vigente al respecto, haga publicación de este con fines educativos. Toda persona que consulte ya sea la biblioteca o en medio electrónico podrá copiar apartes del texto citando siempre la fuentes, es decir el título del trabajo y el autor.
dc.rights.accessrightsinfo:eu-repo/semantics/openAccess
dc.rights.coarhttp://purl.org/coar/access_right/c_abf2
dc.rights.licenseAtribución-NoComercial-SinDerivadas 4.0 Internacional (CC BY-NC-ND 4.0)
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/4.0/
dc.subject.proposalTextosspa
dc.subject.proposalLenguaje naturalspa
dc.titleText segmentation by languagespa
dc.type.coarhttp://purl.org/coar/resource_type/c_2df8fbb1
dc.type.coarversionhttp://purl.org/coar/version/c_970fb48d4fbd8a85
dc.type.driverinfo:eu-repo/semantics/article
dc.type.localArtículo
dc.type.versioninfo:eu-repo/semantics/publishedVersion

Archivos

Bloque original

Mostrando 1 - 1 de 1
No hay miniatura disponible
Nombre:
documento.html
Tamaño:
319 B
Formato:
Hypertext Markup Language