Stanton, J. M. (2013). [e-Book] An Introduction to Data Science. Syracuse, Syracuse University, 2013
La ciencia de los datos se refiere a un área emergente de trabajo relacionado con la recolección, preparación, análisis, visualización, administración y conservación de grandes colecciones de información. Aunque el nombre de Datos Científicos parece conectar más fuertemente con áreas tales como bases de datos y la informática, incluye diferentes tipos de habilidades – incluyendo las habilidades matemáticas. Para algunos, el término “ciencia de datos” evoca imágenes de estadísticos con batas blancas de laboratorio que miran fijamente parpadear la pantalla del ordenador llenos de números en desplazamiento. Nada mas lejos de la verdad. En primer lugar, los estadísticos no llevan batas de laboratorio: esta moda está reservada para los biólogos, médicos, y otros que tienen que mantener su ropa limpia en ambientes asepticos. En segundo lugar, muchos de los datos en el mundo no son numéricos ni estructurados. En este contexto, no estructurado significa que los datos no están dispuestos en filas y columnas ordenadas. Por ejemplo una página web con fotografías y mensajes cortos entre amigos. Si bien es cierto que las empresas, las universidades y los gobiernos utilizan un montón de información numérica – ventas de productos, promedios de calificaciones, evaluaciones fiscales son algunos ejemplos. Así que, aunque siempre es útil tener buenas habilidades matemáticas, hay mucho por hacer en el mundo de la ciencia de los datos para aquellos que generalmente trabajamos con palabras, listas, fotografías, sonidos, y otros tipos de información. Además, la ciencia de los datos es mucho más que un simple análisis de datos. Hay muchas personas que disfrutan del análisis de datos, y que podría felizmente pasar todo el día mirando histogramas y medias, pero para aquellos que prefieren otras actividades, la ciencia de los datos ofrece una gama desarrollos y requiere una serie de habilidades. Vamos a considerar esta idea pensando en algunos de los datos subyacentes que hay en transacciones tan cotidianas como la compra de una caja de cereales.