Mostramos una comparativa entre Data Science vs Big Data, dos términos con los que nos hemos topado muy frecuentemente en los últimos años. ¿Es lo mismo Big Data que Data Science?
No podemos negar la enorme cantidad de datos que cada uno de nosotros genera todos los días. Y hablamos no solo de lo que producimos concientemente (fotos o imágenes, mensajes y comentarios en redes sociales, artículos y publicaciones en redes de contenido, etc), sino también todos esos datos que producimos inconscientemente: qué película vimos en Netflix, qué canción nos gusta en Spotify, qué video nos interesó en Youtube, etc, etc.
Toda esa cantidad de datos tiene valor para muchas empresas y proyectos, incluídos los nuestros. Para estudiar y analizar esos datos se han creado nuevas disciplinas como son el Big Data y el Data Science.
De seguro hemos observado que ambos términos son utilizados casi como sinónimos. Pero, ¿es lo mismo Big Data que Data Science?
Data Science es la combinación de estadística, matemáticas, y programación en la resolución de problemas (Monnappa, 2018). Un data scientist captura datos en forma creativa y tiene la habilidad de ver las cosas de forma distinta, de esa forma cumple su labor principal: limpiar, preparar y analizar los datos para crear modelos predictivos de forma que esos modelos tengan utilidad en el mundo real.
Es posible emplear Data Science en máquinas o sistemas de búsqueda, en algoritmos que determinen qué anuncio publicitario mostar, en sistemas de recomendación (como lo hace Netflix, Spotify y Youtube), etc.
Big Data es la aplicación de Data Science a datos que son muy grandes y que no se pueden procesar en un ordenador o computadora común.
Las empresas usan Big Data para analizar historiales crediticios, para estudiar el comportamiento de compra de sus clientes, etc.
De modo que Data Science es más genérico. Una empresa pequeña tal vez no pueda hacer big data, pero eso no significa que no pueda hacer análisis predictivos usando los datos de los que dispone.
Josh Willis dice que un Data Scientist es alguien que sabe más estadística que cualquier programador y, además, sabe más programación que cualquier estadístico.
La mayoría coincide en que para ser un Data Scientist se necesitan tres cosas: