EL APRENDIZ INFORMÁTICO: Descubrimiento de conocimiento en bases de datos

Autor:
PhD. Guillermo Choque Aspiazu
http://www.eldiario.net/
Publicado en:
Octubre 11 de 2010

En muchas áreas del saber, el conocimiento se ha venido obteniendo por el clásico método hipotético-deductivo de la ciencia positiva. En él es fundamental el paso inductivo inicial: a partir de un conjunto de observaciones y de unos conocimientos previos, la intuición del investigador le conduce a formular la hipótesis. Esta "intuición" resulta inoperante cuando no se trata de observaciones aisladas y casuales, sino de millones de datos almacenados en soporte informático. En el fondo de todas las investigaciones sobre inducción en bases de datos subyace la idea de automatizar ese paso inductivo.

Las técnicas de análisis estadístico, desarrolladas hace tiempo, permiten obtener cierta información útil, pero no inducir relaciones cualitativas generales, o leyes, previamente desconocidas; para esto se requieren técnicas de análisis inteligente que todavía no han sido perfectamente establecidas. Por ello, se incrementa de forma continua la diferencia existente entre la cantidad de datos disponibles y el conocimiento extraído de los mismos. Pero cada vez más investigaciones dentro de la inteligencia artificial están enfocadas a la inducción de conocimiento en bases de datos. Consecuencia de esta creciente necesidad ha aparecido un nuevo campo de interés: la minería de datos, que incluye los nuevos métodos matemáticos y técnicas para el análisis inteligente de datos. La minería de datos surge a partir de sistemas de aprendizaje inductivo en computadoras, al ser aplicados a bases de datos, y su importancia crece de tal forma que incluso es posible que, en el futuro, los sistemas de aprendizaje se usen de forma masiva como herramientas para analizar datos a gran escala.

El descubrimiento implica observar, recoger datos, formar hipótesis para explicar las observaciones, diseñar experimentos, comprobar la corrección de las hipótesis, comparar los hallazgos con los de otros investigadores y repetir el ciclo. Las computadoras son capaces de observar y recoger datos, a veces mejor que los observadores humanos; los programas estadísticos pueden generar agrupaciones de forma automática entre los datos recogidos, aunque no siempre se corresponden con las clasificaciones hechas por los hombres; también hay programas con cierta capacidad para diseñar experimentos; y algunos sistemas robóticos realizan las manipulaciones necesarias en ciertos experimentos. Pero ninguna computadora reúne todas estas habilidades ni es capaz de adaptarse para aplicarlas a nuevos problemas; en este sentido, las computadoras no serían capaces de descubrir. Sin embargo, el descubrimiento no requiere realizar simultáneamente todas estas tareas. De igual modo que un investigador puede descubrir nuevo conocimiento a través del análisis de sus datos, una computadora puede examinar los datos disponibles o recogidos por otras computadoras y encontrar relaciones y explicaciones previamente desconocidas, realizando así descubrimiento en un sentido más restringido. La capacidad de las computadoras para realizar búsquedas exhaustivas de forma incansable entre grandes cantidades de datos ofrece buenas expectativas para obtener descubrimiento de forma automática.

El fácil almacenamiento de la información en sistemas de cómputo, conocido como generación masiva de datos, a través de la automatización de aplicaciones, el uso de lectores de código de barras y otros métodos de captura, han permitido la creación de almacenes masivos de información, hasta el punto en el que consultas enunciadas con hipótesis concretas en lenguajes de consulta estructurados han sido insuficientes para explotar estos almacenes. El sueño del hombre a través de la historia de la computación ha sido el desarrollar sistemas inteligentes para el manejo de la información en sistemas de cómputo. La minería de datos es una disciplina que combina técnicas de la inteligencia artificial, el aprendizaje automático, la probabilidad, la estadística y las bases de datos para extraer información y conocimientos útiles desde grandes cantidades de datos. El término minería de datos no es nuevo, desde los años 1970 los estadísticos manejaban para explicar el significado de minería de datos, expresiones como: extracción de conocimientos, descubrimiento de información, cosecha de información, arqueología de los datos, procesamiento de patrones de los datos, inclusive minería de datos. La minería de datos es usada principalmente por los estadísticos. Aunque conceptualmente hay una diferencia entre minería de datos y descubrimiento de conocimiento en bases de datos, regularmente su uso es indistinto.

Se denomina descubrimiento de conocimiento en bases de datos al proceso global de búsqueda de nuevo conocimiento a partir de los datos de una base de datos. Este proceso incluye no sólo el análisis inteligente de los datos con técnicas de minería de datos, sino también los pasos previos, como el filtrado y preprocesado de los datos, y los posteriores, como la interpretación y validación del conocimiento extraído. Normalmente el término minería de datos lo usan estadísticos, analistas de datos, y la comunidad de sistemas de gestión de información, mientras que el descubrimiento de conocimiento en bases de datos es más utilizado en inteligencia artificial y aprendizaje automático.

El descubrimiento de conocimiento en bases de datos, es un área de investigación de naturaleza multidisciplinaria comprende áreas como: bases de datos, inteligencia artificial (aprendizaje automático, reconocimiento de patrones, sistemas de expertos), y estadística. El descubrimiento de conocimiento en bases de datos es un proceso no-trivial de identificación válida, novedosa, potencialmente útil y entendible de patrones comprensibles que se encuentran en los datos. Algunos términos que forman parte de la definición son los siguientes: (1) Proceso. Implica varios pasos los cuales incluyen pre-procesamiento de los datos, búsqueda de patrones, evaluación y mejoramiento del conocimiento. (2) No trivial. Significa que alguna búsqueda o inferencia está involucrada. (3) Patrón. Es un subconjunto de datos que comparten propiedades similares. (4) Datos. Es un conjunto de registros que aparecen en una base de datos. (5) Validez. Extraer patrones puede ser validado con base en alguna prueba de datos con algún grado de certeza. (6) Potencialmente útiles. Que sean de beneficio para el usuario. (7) Entendibles. El objetivo de descubrir conocimientos es identificar patrones y hacer esto entendible para los seres humanos.

El proceso de descubrimiento de conocimiento en bases de datos es un proceso iterativo e interactivo. Es iterativo porque el resultado de cada paso podría ser usado para previos pasos. Es interactivo porque el usuario o experto en el campo de aplicación debe estar involucrado para ayudar en la preparación de los datos, descubrimiento y evaluación de conocimiento. El descubrimiento de conocimiento en bases de datos en los últimos años ha ganado preponderancia, se viene desarrollando y utilizando ampliamente ya como una disciplina con un cuerpo teórico bastante estructurado. Uno de sus componentes más importantes es la minería de datos que integra técnicas de análisis de datos y extracción de modelos. La minería de datos se basa en varias disciplinas, algunas de ellas tan antiguas como la estadística. Por ello, lo novedoso no son tanto sus técnicas sino su fin, el cual es el de extraer conocimiento.

Los pasos en el proceso de descubrimiento de conocimiento en bases de datos son: (1) Desarrollar un entendimiento del dominio de la aplicación y el conocimiento apriori relevante, así como la identificación del objetivo del proceso de descubrimiento desde el punto de vista de cliente o usuario. (2) Integrar datos de diferentes tipos de información que pueden ser usados en el proceso de descubrir conocimiento. Así es que, fuentes de datos múltiples pueden ser combinados definiendo el conjunto para el cual es aplicado el proceso de “minería”. (3) Crear un conjunto de datos objetivo, seleccionando un conjunto de datos o un subconjunto de variables sobre los cuales el proceso de descubrir será interpretado. (4) Limpiar datos y efectuar un pre-proceso, este paso incluye las operaciones básicas tales como eliminar datos extremos, colectar la información necesaria para modelar o explicar el ruido y las decisiones sobre las estrategias para datos faltantes. (5) Transformar los datos o consolidarlos en forma apropiada para “explotar o minar” usando reducción de la dimensionalidad o métodos de transformación para reducir el número de variables efectivas bajo consideración o encontrar información invariante para los datos. (6) Seleccionar la tarea de minería de datos y algoritmos, se decide el objetivo del proceso de descubrimiento de conocimiento seleccionando la tarea de minería de datos para llevar a cabo dicho objetivo, esto incluye decidir qué modelo y parámetros son apropiados, además de adecuar los método de minería de datos con los requerimientos y todos los criterios del proceso de descubrimiento de conocimiento. (7) Aplicar los métodos de minería de datos para encontrar patrones interesantes de conocimiento. Los patrones pueden ser para una representación específica o un conjunto de tales representaciones tales como: reglas de clasificación, árboles de decisión, regresión, agrupamiento etc. La ejecución y los resultados de minería de datos dependen de los pasos precedentes. (8) La extracción de patrones son evaluados sobre algunas mediciones interesantes para identificar patrones representando conocimientos. (9) La extracción de conocimientos es incorporado en un sistema o simplemente la visualización y técnicas de representación de conocimientos son usadas para representar el conocimiento minado para su uso. Es menester señalar que también se observa y se resuelve conflictos con conocimientos previos.

Para conocer más acerca del Doctor Choque y sus publicaciones, haz clic en el siguiente vínculo:

MenteErrabunda.blogspot.com

Páginas

jueves, 4 de diciembre de 2014

Descubrimiento de conocimiento en bases de datos

No hay comentarios:

Publicar un comentario