Flujo de trabajo en ciencia de datos: fases, roles y oportunidades laborales
Roles
- Ingeniero de Datos: Es el encargado de crear la infraestructura necesaria para recolectar datos a través de bases de datos, APIs y ETLs (extraer, transformar y cargar).
- Analista Bussiness Intelligence: Extrae la información, creando cuadros de control, tablas y automatiza estos procedimientos. Todo con el fin de que cualquier persona que acceda a la información pueda entender.
- Data Scientist: Ocupa el rol de analista, y sabe extraer la información. Pero su función más importante es predecir a través de modelos estadísticos y de IA / Machine Learning.
- Data Translator: Es una persona que pueda interpretar los datos y pueda comunicarnos con los otros equipos de negocios. Experto en la necesidad de negocio.
Herramientas para cada etapa del análisis de datos
Extracción de la información con SQL
Aquí extraemos la información, sintetizar una base de datos y crear un cuadro de control de la operación.
Análisis y visualización con R y Python
Se analiza y visualizar la información extraída a través de gráficos, y con los cuales podremos crear modelos predictivos. Los 2 lenguajes de programación que usan aquí son:
- R: Sirve para realizar análisis de datos con un enfoque estadístico y es un más complejo aprenderlo al inicio. Algunas de las herramientas (packpages) que se complementan con R son
ggplot2
y dplyr
.
- Python: Sirve también para realizar análisis de datos, pero con un enfoque hacia la ingeniería. Python es un lenguaje más sencillo y es similar a otros lenguajes de programación. Alguna herramientas (librerías) que complementan con Python son
Pandas
y Numpy
.
¿Qué es y cómo usar una base de datos relacional con SQL?
Cómo estructurar queries en SQL
Conflictos y retos actuales sobre la ética y tratamiento de datos