viernes, 18 de septiembre de 2009

Aplicación de Web Mining : Minería de Textos

Minería de Textos

Se abordan conceptos teóricos sobre la minería de textos, se analiza la Web Mining como uno de los campos de estudio de la minería de textos.

La minería de texto es una de las ramas de la lingüística computacional. La lingüística computacional se encarga de la comprensión del lenguaje.
La más grande de estas áreas, es el procesamiento automático de textos el cual considera una gran diversidad de tareas, como la separación de palabras.

La minería de texto es la más reciente área de investigación ahi se define el proceso de descubrimiento de patrones interesantes y nuevos conocimientos de textos, se dice que la minería de texto es el proceso encargado del descubrimiento de conocimientos que no existían explícitamente en ningún texto de la colección, pero que surgen de relacionar el contenido de varios de ellos .

La mineria de texto propone un equilibrio entre el análisis humano y automático a la vez, es decir, un enfoque semiautomático cuyo objetivo intermedio es procesar y presentar información disponible en grandes colecciones documentales en un formato que facilite su comprensión y análisis.
La minería de texto al igual que la minería de datos son técnicas de análisis de información.

El proceso de Minería de Textos

1. Adquisición de textos( para tener la mineria tenemos que obtener los datos y obtener los textos especificos.)

2. Normalización de los textos.

o Usualmente en formato basado en XML

o Extracción de metadatos identificativos: autor, título, fecha, fuente,..

3. Filtrado: Identificación de textos relevantes mediante un análisis de presencia de
palabras predeterminadas.

4. Análisis: Establecimiento de relaciones entre textos con base en los términos y
categorías.

No hay comentarios: