almacenamiento de datos y herramientas de minería de datos que sea fácil de extraer y analizar grandes volúmenes de información, pero la calidad del análisis es sólo tan buena como la calidad de los datos. El primer paso en cualquier proyecto de investigación o estudio almacenamiento de datos debe ser una evaluación de la calidad de los datos que entran en el proyecto. Medidas para la integridad, validez y consistencia todos los factores en esta evaluación. Desarrollar las métricas de calidad de datos, debe seguir ciertos pasos.
Instrucciones
1 Desarrollar un marco para medir la calidad de datos. Crear espacio en cada base de datos donde se pueden almacenar los resultados de los controles de calidad. Elaborar informes o cuadros de mando de estos datos.
2 Medir la integridad de los datos. Elegir elementos clave en cada base de datos y contar el porcentaje de valores nulos, los campos vacíos o valores que representan datos no disponibles o desconocidos.
3 Medir los porcentajes de los valores permitidos. Cuando un campo tiene una serie de valores de códigos predefinidos, medir la distribución de estos valores con el número de valores incorrectos y que faltan. Analizar estas distribuciones para determinar si ciertos códigos aparecen con demasiada frecuencia. Si es así, puede ser necesario subdividir para proporcionar una mejor descripción de este valor. Por ejemplo, si las respuestas son de color negro, blanco y color y el 98% de las respuestas son el color, podría tener sentido para reemplazar el color de rojo, azul o verde.
4 Compruebe si los valores razonables. mediciones numéricas suelen aparecer dentro de un rango permisible. Por ejemplo, una temperatura meteorológica medición diaria Fahrenheit suele aparecer como un valor de alrededor de -40 a 120. Cualquier valor fuera de ese rango no es probablemente válida.
5 Comparación de los valores dentro del mismo registro de coherencia. Si la temperatura era de 90 grados Fahrenheit y el valor de precipitación de nieve, uno de los dos valores es probablemente incorrecta.
6 Comprobar la coherencia entre los registros relacionados. Utilice los controles de consistencia similares entre los registros en las relaciones entre padres e hijos y dentro de múltiples entradas secundarias. las relaciones de padres e hijos son los vínculos entre los elementos de base de datos. Por ejemplo, en una serie de artículos relacionados con el tiempo, si un conjunto de temperaturas de temperatura por hora lista de mediciones en constante aumento de 50 a 70 grados durante toda la mañana, pero los 10 estoy leyendo es -20, este valor es probablemente un error.
7 Crear informes, paneles o notificaciones sobre la base de los datos recogidos. Resumir por grupos de organización, proveedor o tipo de cliente con habilidades para profundizar en los elementos de datos específicos. Analizar los datos para determinar dónde se producen los errores y qué se puede hacer para mejorar la calidad de los datos.
8 Mejorar la calidad de los datos. Revisar las reglas de negocio, el software de reparación de rechazar los malos datos, notificar a los clientes de los problemas de datos y encontrar maneras de recompensar las iniciativas de calidad. Supervisar estas mediciones en el tiempo.
Consejos y advertencias
- La mayoría de las bases de datos relacionales ofrecen formas para rechazar los datos no válidos utilizando las restricciones y las claves externas. Utilice estas limitaciones para hacer cumplir la calidad de datos.