Big data es la nueva y enorme cantidad de datos que pueden estudiarse para mostrar patrones, tendencias y asociaciones.
Read in English. (Leer en inglés.)
El término big data hace referencia a grandes conjuntos de datos que pueden estudiarse para revelar patrones, tendencias y asociaciones. La gran cantidad de vías de recopilación de datos que existen significa que ahora los datos pueden venir en mayores cantidades, reunirse mucho más rápidamente y existir en una mayor variedad de formatos diferentes que antes. Estos nuevos datos, más grandes y complejos, se denominan colectivamente big data.
Aunque no existe un límite que separe el big data de los datos tradicionales, en general se considera que el big data es "grande" porque no puede ser procesado con suficiente eficacia y rapidez por las antiguas herramientas de análisis de datos.
El big data se define mayormente por las tres Vs: volumen, velocidad y variedad.
El volumen se refiere a la cantidad de datos. El big data se ocupa de grandes volúmenes de datos.
La velocidad se refiere al ritmo al que se reciben los datos. Los big data fluyen a gran velocidad, y a menudo pasan directamente a la memoria en lugar de almacenarse en un disco.
La variedad se refiere a la amplia gama de formatos de datos. Los big data pueden ser estructurados, semi estructurados o no estructurados, y pueden presentarse como números, textos, imágenes, audios, etc.
Las empresas que procesan big data también pueden centrarse en otras variables, como el valor, la veracidad y la variabilidad.
Las nuevas tecnologías de la información han permitido recoger, almacenar y analizar datos a una escala sin precedentes. El Internet continúa siendo adoptado por nuevos usuarios en México y en todo el mundo, y las tecnologías en desarrollo han permitido la integración del Internet en muchos productos diferentes, creando numerosas fuentes nuevas de datos. Los millones de personas que ven Netflix, utilizan Google o compran productos en línea cada día contribuyen al creciente volumen y sofisticación del big data.
Big data puede proceder de:
Dispositivos inteligentes (Internet de las cosas, o IoT): La conexión al Internet permite a las empresas recopilar datos a través de dispositivos como los sistemas domésticos inteligentes, las aspiradoras robóticas, los televisores inteligentes, los dispositivos móviles y los rastreadores ponibles de fitness que registran archivos.
Redes sociales: Los "me gusta", los "compartidos", las "publicaciones", los "comentarios", el tiempo que se pasa mirando un "post"—toda esta información se considera un dato revelador del comportamiento, el sentimiento y las preferencias de las personas.
Sitios web: Las empresas u otros propietarios de sitios web pueden rastrear las visitas a las páginas, la ubicación general de los visitantes, ver cuánto tiempo pasa el público en una página, qué enlaces son los más pulsados y el movimiento del cursor.
Transacciones comerciales: Los datos pueden proceder de los clientes cuando compran productos, en línea y en persona. El precio, el momento de la compra, los métodos de pago y otros detalles pueden informar a una empresa sobre la demanda de sus productos por parte de los clientes.
Maquinaria: Incluso sin conexión al Internet, máquinas como cámaras de carretera, sensores y equipos médicos pueden registrar información.
Atención sanitaria: El sistema de salud está lleno de datos. Los analistas de datos pueden utilizar la información agregada de los registros de salud, los seguros y los resúmenes de los pacientes para obtener nuevas perspectivas y mejorar la atención al paciente.
Administración pública: Los gobiernos municipales, estatales y federales pueden utilizar datos de muchas fuentes—información sobre el tráfico de automóviles, rendimientos agrícolas, sistemas de seguimiento meteorológico, información demográfica de los censos, por nombrar algunas—para tomar decisiones políticas.
Casi todas las entidades pueden utilizar big data para obtener información valiosa y tomar decisiones sobre sus operaciones. Una empresa, por ejemplo, puede analizar los datos que recopila para comprender mejor las preferencias de los clientes y diseñar estrategias comerciales impactantes. Los datos masivos en los sistemas sanitarios pueden utilizarse para encontrar los síntomas comunes de las enfermedades, o para decidir cuánto personal poner en una planta de hospital en un momento dado. Los gobiernos pueden utilizar los datos de tráfico para planificar nuevas carreteras, o rastrear los índices de criminalidad o los riesgos de terrorismo para ajustar su respuesta en consecuencia.
Si trabajas como analista de datos o en otro campo que trabaje con big data, puedes utilizar las siguientes herramientas y métodos:
Análisis predictivo: Utiliza los datos para predecir la probabilidad de eventos o tendencias en el futuro mediante el uso de modelos predictivos y tecnología de aprendizaje automático.
Análisis en tiempo real: Analiza y utiliza los datos en el momento en que entran en una base de datos para tomar decisiones rápidamente, como cuando un sistema bancario marca un pago como potencialmente fraudulento cuando se realiza fuera del país.
Minería de datos: Revisa enormes cantidades de datos para encontrar patrones, tendencias y correlaciones. Encontrar relaciones entre puntos de datos es clave para ayudar a las organizaciones a tomar decisiones.
Aprendizaje automático: Predice tendencias y encuentra patrones en grandes conjuntos de datos con el aprendizaje automático—una forma de inteligencia artificial que aprende y mejora continuamente. El aprendizaje automático puede ser útil para adaptarse a los nuevos flujos de datos.
Aprendizaje profundo: El aprendizaje profundo es un subconjunto del aprendizaje automático que se basa en redes neuronales artificiales e imita el proceso de aprendizaje del cerebro humano. Utiliza a menudo el aprendizaje profundo en el reconocimiento de voz y texto, y en la tecnología de visión por ordenador.
Almacenes de datos: Los almacenes de datos almacenan cantidades masivas de datos históricos. Los datos suelen estar limpios y organizados, y se pueden acceder posteriormente para analizarlos.
Hadoop: Hadoop es un marco de software que puedes utilizar para almacenar y procesar grandes cantidades de datos que pueden funcionar en varios grupos (clusters) de computadoras. La capacidad de Hadoop de ser escalado fácilmente y de almacenar varios tipos de datos a la vez lo han convertido en la plataforma preferible para procesar big data.
Apache Spark: Apache Spark es un marco de software que combina el análisis de datos con la inteligencia artificial. Puede analizar grandes conjuntos de datos más rápidamente en muchos casos que Hadoop.
Las profesiones relacionadas con los datos—analistas y científicos de datos, especialistas en IA y aprendizaje automático, y especialistas en big data—ocuparon los tres primeros puestos en la lista del Foro Económico Mundial de los principales puestos de trabajo con mayor demanda en todos los sectores en 2020 [1]. A continuación, se describen los puestos de trabajo que utilizan el big data en diferentes capacidades.
Analista de datos: Un analista de datos trabaja para recopilar, limpiar e interpretar datos y crear modelos de datos. Los analistas de datos pueden trabajar en una gran variedad de sectores, como el empresarial, el científico y el sanitario.
Ingeniero de datos: Los ingenieros de datos trabajan para crear y mantener la infraestructura de datos. Esto puede incluir almacenes de datos, conductos de datos y otras formas de organizar los datos que los analistas pueden utilizar para hacer predicciones u otras interpretaciones.
Científico de datos: Un científico de datos generalmente utiliza conocimientos matemáticos o estadísticos para construir algoritmos, modelos y otras herramientas analíticas para ayudar a organizar e interpretar los datos.
Analista de inteligencia empresarial (business analyst): Los analistas de inteligencia empresarial analizan los datos de la empresa, como la información de ventas o las métricas de compromiso de los clientes, para obtener información procesable sobre el rendimiento de la empresa.
Analista de operaciones: Los analistas de operaciones recopilan datos sobre cuestiones operativas en empresas u otras organizaciones. Los analistas de operaciones pueden utilizar los datos para encontrar información empresarial y soluciones a problemas de producción, personal o cualquier otro aspecto relacionado.
Analista de marketing: Los investigadores o analistas de marketing recogen información sobre los clientes actuales o potenciales, las condiciones del mercado o las actividades de la competencia. Los datos recogidos se utilizan para entender cómo puede responder una empresa mediante tácticas de marketing o ajustes del producto.
Aprender a incorporar big data en tu carrera puede aportarte nuevas perspectivas en tu trabajo, y es probable que los datos sigan creciendo en importancia. Varios cursos en línea, como los siguientes, pueden ayudarte a empezar:
Aprende a desenvolverte en el mundo de big data y a dominar Hadoop con el curso de Big Data de la UC San Diego.
Familiarízate con los fundamentos del aprendizaje automático con un curso de la Universidad de Stanford.
Encuentra cómo escalar la ciencia de datos y el aprendizaje automático para big data utilizando Apache Spark.
Foro Económico Mundial. "The Future of Jobs Report 2020, http://www3.weforum.org/docs/WEF_Future_of_Jobs_2020.pdf". Consultado el 22 de abril de 2022.
Editorial Team
Coursera’s editorial team is comprised of highly experienced professional editors, writers, and fact...
This content has been made available for informational purposes only. Learners are advised to conduct additional research to ensure that courses and other credentials pursued meet their personal, professional, and financial goals.