Melissa Alurralde UPAL: PROCESAMIENTO, SISTEMATIZACIÓN Y PRESENTACIÓN DE RESULTADOS CUANTITATIVOS Y CUALITATIVOS

El procesamiento de los datos se refiere a todo el proceso que sigue un investigador desde la recolección de datos, hasta la presentación de estos en forma resumida. En este proceso cuenta sobre todo, la habilidad del ser humano para capturar los datos y procesarlos de acuerdo a algún parámetro estadístico.

A diferencia de los estudios cuantitativos, en la investigación cualitativa se recauda un volumen grande de información de carácter textual, producto de las entrevistas a los informantes, las notas de campo y el material audiovisual o grafico que se obtiene en el trabajo de campo.

El análisis en los estudios cualitativos consiste en la realización de las operaciones a las que el investigador someterá los datos con la finalidad de alcanzar los objetivos propuestos en el estudio.

De forma general, el procesamiento y análisis de datos consiste en la recolección de datos en bruto para transformarlos en información entendible como gráficas, tablas, documentos, etc. Entonces, dicha información pasa de la computadora a manos de los empleados que la usarán según sus necesidades.´

La interpretación de datos es un proceso consistente en la inspección, limpieza y transformación de datos, con el fin de extraer información de utilidad para derivar en unas conclusiones concretas que permitan esclarecer la toma de decisiones.

LOS 3 PRINCIPALES TIPOS DE TÉCNICAS DE PROCESAMIENTO Y ANÁLISIS DE DATOS

La elección del tipo de técnicas de procesamiento y análisis de datos influirá decisivamente en el resultado. Potencia y escalabilidad son características que deben ser tenidas en cuenta de la misma forma que las capacidades del sistema para recoger los valores atípicos, detectar la existencia de fraudes en las transacciones o llevar a cabo controles de seguridad.

La tarea más difícil, sin embargo, es la de lograr disminuir la latencia de la analítica que se practica sobre un conjunto completo de grandes datos, algo que requiere el procesar terabytes de datos en cuestión de segundos.

PROCESAMIENTO BATCH: para lotes de grandes volúmenes de datos

Apache Hadoop es un marco de computación distribuida el modelo de Google MapReduce para procesar grandes cantidades de datos en paralelo. Hadoop Distributed File System (HDFS) es el sistema de archivos subyacente de un cluster Hadoop y funciona de manera más eficiente con un número reducido de archivos big data de gran volumen, que con una cantidad superior de archivos de datos más pequeños.

Un trabajo en el mundo Hadoop suele durar de minutos a horas para completarse, por lo tanto, podría afirmarse que la opción Hadoop no es la más indicada cuando el negocio tenga la necesidad de llevar a cabo un análisis en tiempo real, sino más bien en los casos en que sea posible conformarse con una analítica offline.

Recientemente, Hadoop ha evolucionado para adaptarse a las nuevas necesidades empresariales. Los negocios hoy día demandan:

Menores latencias.

Minimización del tiempo de respuesta.

Precisión máxima en la elaboración de decisiones.

Hadoop se ha renovado mejorando su capacidad de gestión gracias a una novedad que se conoce como stream. Uno de los principales objetivos de Hadoop streaming es desacoplar Hadoop MapReduce del paradigma para dar cabida a otros modelos de computación en paralelo, como MPI (Message Passing Interface) y Spark. Con las novedades de la aplicación de técnicas de procesamiento y análisis de datos en streaming se superan muchas de las limitaciones del modelo batch que, si bien puede considerarse demasiado rígido para determinadas funciones, algo que no es de extrañar si se tiene en cuenta que sus orígenes datan de hace más de cuatro décadas; todavía es el más indicado, por la relación coste - resultados, para operaciones como:

El cálculo del valor de mercado de los activos, que no necesita revisarse más de una vez al día.

Cálculo mensual del coste de las facturas de teléfono de los empleados.

Generación de informes relacionados con temas fiscales.

PROCESAMIENTO EN STREAM

Este tipo de técnicas de procesamiento y análisis de datos se basan en la implementación de un modelo de flujo de datos en el que los datos asociados a series de tiempo (hechos) fluyen continuamente a través de una red de entidades de transformación que componen el sistema. Se conoce como procesamiento streaming o de flujo.

No hay limitaciones de tiempo obligatorias en el procesamiento de flujo, al contrario de lo que sucede con las técnicas de procesamiento y análisis de datos en tiempo real. Por ejemplo, un sistema que se ocupe del recuento de las palabras incluidas en cada tweet para el 99,9% de los tweets procesados es un sistema de procesamiento en stream válido. Tampoco existe una obligación en cuanto al plazo de tiempo de generación del output por cada input recibido en el sistema. Las únicas limitaciones son:

Se debe disponer de suficiente memoria para almacenar entradas en cola.

La tasa de productividad del sistema a largo plazo debería ser más rápida, o por lo menos igual, a la tasa de entrada de datos en ese mismo periodo. Si esto no fuese así, los requisitos de almacenamiento del sistema crecerían sin límite.

Este tipo de técnicas de procesamiento y análisis de datos no está destinado a analizar un conjunto completo de grandes datos, por lo que generalmente no presentan esa capacidad, salvo excepciones.

TÉCNICAS DE PROCESAMIENTO Y ANÁLISIS DE DATOS EN TIEMPO REAL

Cuando los datos se trabajan en tiempo real el nivel de procesamiento analítico en línea alcanzado es extremadamente alto y el margen es inferior a segundos. Precisamente por ello, los sistemas reales time no suelen usar mecanismos especiales para la atomicidad y durabilidad. Simplemente se ocupan de procesar la entrada tan pronto como sea posible.

La cuestión es lo que puede suceder si pierden la entrada. Cuando esto ocurre, hacen caso omiso de la pérdida y siguen procesando y analizando sin detenerse. En según qué entorno, esto no supone un problema, por ejemplo, en un ecommerce, pero puede serlo en el sistema de vigilancia de seguridad de un banco o de una instalación militar. No es bueno que se pierda información, pero incluso la tecnología tiene un límite y, cuando se trabaja de verdad en tiempo real, el sistema no puede dejar las operaciones para volver a arreglar algo que ya es pasado, quedó segundos atrás. Los datos que siguen llegando y el sistema debe hacer todo lo posible para continuar su procesamiento.

En cualquier caso, las técnicas de procesamiento y análisis de datos en tiempo real merecen una seria consideración, antes de su implementación ya que:

No son tan sencillas de poner en práctica mediante el uso de sistemas de software comunes.

Su coste es superior al de las opciones streaming.

Dependiendo del fin para el que se quieran utilizar, puede ser preferible optar por una opción intermedia entre streaming y tiempo real, como la que usa Amazon en su web y que garantiza un resultado que no excede en ningún caso los cien o doscientos milisegundos para el 99% de todas las solicitudes

Melissa Alurralde UPAL

jueves, 18 de noviembre de 2021

PROCESAMIENTO, SISTEMATIZACIÓN Y PRESENTACIÓN DE RESULTADOS CUANTITATIVOS Y CUALITATIVOS

No hay comentarios:

Publicar un comentario

ANÁLISIS E INTERPRETACIÓN DE DATOS: LA TRIANGULACIÓN

Denunciar abuso