Bienvenidos

El fin de este blog es complementar con practica lo aprendido durante el curso de administracion de conocimiento y contribuir con nuestros conocimientos a genereaciones futuras.

domingo, 21 de noviembre de 2010

Métodos estadísticos: Aprendizaje y minería de datos.

METODOS ESTADISTICOS


En una arquitectura de GC encontramos distintas herramientas y servicios que configuran como resultado final una solución GC completa.
Como herramientas que dan apoyo a la GC dentro de las empresas podemos diferenciar 3 grupos o conjuntos.

Grupo 1 - Herramientas de trasmisión inmediata: Son herramientas que permiten transmitir el conocimiento explicito de forma fácil al conjunto de miembros de una misma empresa. Las Wikis son buen ejemplo de este tipo de herramientas o la wikipedia. Estas pertenecerían a una arquitectura principal que podría estar en el grupo 2.
Grupo 2 - Herramientas y servicios de gestión del conocimiento interno: Son aquellos componentes dentro de una arquitectura que gestionan, analizan, buscan y distribuyen información. Por ejemplo las herramientas y soluciones dentro de arquitecturas como Autonomy AgentWare Knowledge Server o IBM AgentBuilder Toolkit.

Grupo 3 - Herramientas y servicios de gestión del conocimiento externo: Al igual que en el grupo 2 son componentes que gestionan, analizan, buscan y distribuyen, pero en este caso también hay que añadir que localizan y extraen, dado que su misión principal es la localización y extracción de información relacionada con la empresa pero que esta en el exterior de esta (principalmente en Internet o en otros soportes mas tradicionales de contenidos) y que por lo tanto en algunas ocasiones la empresa puede ser ajena a esta y no tener conocimiento de su existencia. Algunos ejemplos los tenemos en herramientas como Informyzer que pertenece a la arquitectura de anpro21 o las soluciones de MyNews.



MINERIA DE DATOS

La minería de datos (DM, Data Mining) consiste en la extracción no trivial de información que reside de manera implícita en los datos. Dicha información era previamente desconocida y podrá resultar útil para algún proceso. En otras palabras, la minería de datos prepara, sondea y explora los datos para sacar la información oculta en ellos.

Bajo el nombre de minería de datos se engloba todo un conjunto de técnicas encaminadas a la extracción de conocimiento procesable, implícito en las bases de datos. Está fuertemente ligado con la supervisión de procesos industriales ya que resulta muy útil para aprovechar los datos almacenados en las bases de datos.

Las bases de la minería de datos se encuentran en la inteligencia artificial y en el análisis estadístico. Mediante los modelos extraídos utilizando técnicas de minería de datos se aborda la solución a problemas de predicción, clasificación y segmentación.

Técnicas de minería de datos


Como ya se ha comentado, las técnicas de la minería de datos provienen de la Inteligencia artificial y de la estadística, dichas técnicas, no son más que algoritmos, más o menos sofisticados que se aplican sobre un conjunto de datos para obtener unos resultados.

Las técnicas más representativas son:

Redes neuronales.- Son un paradigma de aprendizaje y procesamiento automático inspirado en la forma en que funciona el sistema nervioso de los animales. Se trata de un sistema de interconexión de neuronas en una red que colabora para producir un estímulo de salida. Algunos ejemplos de red neuronal son:

El Perceptrón.

El Perceptrón multicapa.

Los Mapas Autoorganizados, también conocidos como redes de Kohonen.

Regresión lineal.- Es la más utilizada para formar relaciones entre datos. Rápida y eficaz pero insuficiente en espacios multidimensionales donde puedan relacionarse más de 2 variables.

Árboles de decisión.- Un árbol de decisión es un modelo de predicción utilizado en el ámbito de la inteligencia artificial, dada una base de datos se construyen estos diagramas de construcciones lógicas, muy similares a los sistemas de predicción basados en reglas, que sirven para representar y categorizar una serie de condiciones que suceden de forma sucesiva, para la resolución de un problema. Ejemplos:

Algoritmo ID3.

Algoritmo C4.5.

Modelos estadísticos.- Es una expresión simbólica en forma de igualdad o ecuación que se emplea en todos los diseños experimentales y en la regresión para indicar los diferentes factores que modifican la variable de respuesta.

Agrupamiento o Clustering.- Es un procedimiento de agrupación de una serie de vectores según criterios habitualmente de distancia; se tratará de disponer los vectores de entrada de forma que estén más cercanos aquellos que tengan características comunes. Ejemplos:

Algoritmo K-means.

Algoritmo K-medoids.

Según el objetivo del análisis de los datos, los algoritmos utilizados se clasifican en supervisados y no supervisados (Weiss y Indurkhya, 1998):

Algoritmos supervisados (o predictivos): predicen un dato (o un conjunto de ellos) desconocido a priori, a partir de otros conocidos.

Algoritmos no supervisados (o del descubrimiento del conocimiento): se descubren patrones y tendencias en los datos. 


*Referencia
http://admondelconocimientobernal.blogspot.com/p/32-metodos-estadisticasaprendizaje-y.html

No hay comentarios:

Publicar un comentario en la entrada