Archivo de la etiqueta: Big Data

Guía Completa de Minería de Datos: Conceptos, Técnicas y Aplicaciones

Minería de Datos: Descubriendo Patrones en la Información

La minería de datos es el proceso de analizar y explorar grandes conjuntos de datos para descubrir patrones, reglas y conocimientos ocultos. Mediante el uso de técnicas automatizadas, la minería de datos permite a las organizaciones obtener información valiosa para la toma de decisiones.

Tareas de Minería de Datos

El proceso de minería de datos generalmente implica las siguientes tareas:

Big Data: Conceptos, características y aplicaciones

Capítulo I

Comprendiendo Big Data

1.1 ¿Qué es el Big Data?

En general Big Data es definida de diferentes maneras por un sin número de

expertos en el área de tratamiento de datos y de los negocios, pero siempre estas definiciones suelen tener su punto central en común al referirse a Big data como una herramienta de tratamiento de un gran y variado volumen de datos.

Phillip Carter, vicepresidente asociado de la consultora IDC, define el Big Data como: “una nueva generación de tecnologías y arquitecturas Seguir leyendo “Big Data: Conceptos, características y aplicaciones” »

Características de una Base de Datos Relacional y su Administración

Define las características principales de una Base de Datos Relacional.

  • Cada tabla debe tener sus primary keys (o en su caso) forean key

  • El usuario tiene una vista de la base de datos y se acomoda a las necesidades

  • Fácil escalabilidad

Funciones del DBA

Es el implementar, mantener y optimizar y administrar cantidades de información para el mejor uso y análisis de estos

Restauración de una Base de Datos

Toda base de datos debería ser restaurada cada que presente fallas o anomalías. Si dicha BD que Seguir leyendo “Características de una Base de Datos Relacional y su Administración” »

Desarrollo de Hadoop y Spark

CHULETA DE DESARROLLO DE HADOOP Y SPARK

Introducción A HADOOP

HDFS:


Es el sistema de archivos distribuido que almacena toda la información del cluster

YARN + MapReduce2:


 Asigna los recursos en los nodos, y buscar ordenar, agrupar la Información.

Tez:


Es Tecnología nueva para hacer lo del mapreduce.

Hive:


Interactual a través de sentencias HSQL

HBase:


Base de Datos Columnar incluida en el Ecología del Ecosistema Hadoop

Pig:


Lenguaje scripting para manipular la información

Sqoop:


Me permite Seguir leyendo “Desarrollo de Hadoop y Spark” »