Herramientas para la minería de datos y la máquina de aprendizaje práctico

by admin

La minería de datos y aprendizaje automático son dos áreas de la ciencia que dibujan a partir de una variedad de disciplinas con el objetivo de utilizar ordenadores para recopilar información de las entidades de texto. Ideas de los campos de la lingüística, la informática y las matemáticas se emplean para determinar las relaciones entre las palabras y frases y crear modelos y descripciones de las características del texto. Estos principios y las ideas se aplican en los paquetes de software de aprendizaje automático y minería de datos.

Nltk

También conocido como NLTK, el kit de herramientas de lenguaje natural es una colección de bibliotecas de software que ayudan en el procesamiento del lenguaje estadístico. Las colecciones de texto llamado corpus se importan en NLTK y se llaman los módulos para analizar el texto y producir conocimiento acerca de la naturaleza del texto. Los módulos incluyen palabra derivada, la extracción y el trozo de marcado parte de discurso. El NLTK está escrita para el más alto nivel de lenguaje de programación Python. Es un proyecto de código abierto que continúa siendo revisado y mejorado por colaboradores de todo el mundo.

weka

Weka ofrece una colección de algoritmos de aprendizaje automático que se utilizan con frecuencia en el análisis de texto durante los procesos de minería de datos. Este paquete de software está encabezada por el Grupo de la máquina de aprendizaje de la Universidad de Waikato, Nueva Zelanda. Weka se implementa en el lenguaje de programación Java y se distribuye libremente bajo la Licencia Pública General de GNU. Este paquete proporciona métodos para pre-procesamiento de texto, tales como la elaboración de una base de datos de información y lectura de archivos CSV.

Elki

Elki es un marco que proporciona algoritmos para el agrupamiento, la gestión de bases de datos y los índices de detección de valores atípicos. Su nombre es un acrónimo de Medio Ambiente para el Desarrollo de KDD-aplicaciones soportadas por estructuras de índices. KDD es otro acrónimo que significa descubrimiento de conocimiento en bases de datos. Elki es un proyecto académico que sea mantenida por la Universidad Ludwig Maximilian de Munich y diseñado para ser utilizado por los estudiantes, profesores, investigadores e ingenieros de software. Está escrito en Java y está protegido por copyright. Se debe obtener una licencia para utilizar el marco Elki.

RapidMiner

Otra colección de código abierto de herramientas de datos lingüísticos, RapidMiner es un entorno en el que se pueden realizar experimentos de aprendizaje automático y los resultados recogidos para su posterior análisis. RapidMiner es muy adecuado para una variedad de tareas de minería de texto, como el descubrimiento de conocimientos, la creación de descripciones estadísticas de los datos de texto y procesamiento de las operaciones de espectrometría de masas y genotipo. RapidMiner viene con una interfaz gráfica de usuario avanzada que ayuda en la visualización de la información de manera descriptiva, tales como histogramas, y también ayuda en el desarrollo del flujo de trabajo. RapidMiner está escrito en Java, se puede integrar con la plataforma Weka y se puede llamar desde otros programas escritos en otros lenguajes de alto nivel, como Perl, Python y C ++.

ETIQUETA: