Logo UNAM
CECAv

Omar Páramo

Por Ciencia de Datos nos referimos al análisis de un gran cúmulo de información y a la forma de procesarla, modelarla y trabajarla a partir de algoritmos o representaciones matemáticas o computacionales.

El mundo cambia a un ritmo tan acelerado que, en el año 2000, de toda la información almacenada sólo una cuarta parte estaba en memorias digitales y lo demás se repartía en impresos, vinilos, casetes y demás soportes análogos. Sin embargo, los papeles se invirtieron muy rápido y, a tal al grado, que en 2013, del total que había en el planeta (unos mil 200 exabytes), el 98 por ciento era ya digital, según cálculos del profesor Martin Hilbert, de la Universidad de California, también conocido como el “gurú del Big Data”.

Si tal cúmulo de información se publicara en libros y estos se pusieran uno encima de otro formarían cuatro mil 500 pilas tan altas que tocarían el Sol, o al menos eso calculaba el académico en 2014, pues hoy esta cifra probablemente es cuatro veces mayor, porque como él mismo aseguraba en entrevista para la BBC, este volumen se duplica cada dos años y medio. Por ello, y a fin de formar a expertos capaces de obtener conocimientos útiles a partir de esta avalancha de material, la UNAM creó una nueva carrera: Ciencia de Datos.

“Esta licenciatura de reciente cuño comenzará a impartirse en agosto y ya estamos listos para recibir a la primera generación, constituida por alumnos regulares que, tras haber aprobado cuatro semestres en carreras como Actuaría, Física o Ingeniería en Computación —entre otros programas afines— cursarán otros cuatro en el Instituto de Investigaciones en Matemáticas Aplicadas y en Sistemas (IIMAS)”, detalla el director de dicha entidad, Héctor Benítez Pérez.

Para entender por qué estos profesionales son tan necesarios, el investigador pidió imaginar las miles de fotografías dispersas en nuestros ordenadores y dispositivos portátiles y luego sumar a este catálogo los documentos, e-books, videos, canciones, mensajes, chats, audios, emails, podcasts y demás archivos que guardamos.

“¿Sabemos dónde está todo a cada instante? ¿Somos eficientes al ordenar y clasificar? ¿Podemos encontrar lo necesario con rapidez y sacar conclusiones de esta colección? Para la mayoría no es fácil y eso que hablamos a nivel micro; si llevamos esto a un ámbito macro y pensamos en una organización orillada a expurgar sus acervos para localizar aquello que le permitirá diseñar estrategias futuras o hacer prospectivas sobre su negocio en el corto, mediano o largo plazos, entonces vemos que los encargados de esta tarea no pueden improvisar en ningún momento, deben estar bien preparados”.

Por Ciencia de Datos —explica el doctor Benítez— nos referimos al análisis de un gran cúmulo de información y a la forma de procesarla, modelarla y trabajarla a partir de algoritmos o representaciones matemáticas o computacionales. “Quien se dedique a esto debe estar dispuesto al diálogo, pues tratará con personas de muy diversas formaciones, como biólogos, médicos, ingenieros, físicos o economistas, es decir, con aquel interesado en que un profesional le interprete los datos que ha obtenido y que no entiende del todo”.

Sobre este asunto Fabián García Nocetti, quien hasta 2012 dirigió el IIMAS, escribió en el número 472 de la revista Nexos que aunque muchos toman por sinónimos big data y ciencia de datos, “la primera se refiere a la gestión y  procesamiento de datos, mientras que la segunda involucra conocimientos de uno o más campos: finanzas, medicina, geología, matemáticas, computación, estadística y el área de dominio en particular, y toma en cuenta aspectos de investigación como prueba, hipótesis y variación de los resultados”.

¿Qué nos pueden decir los datos?

En 2009, un grupo de ingenieros aseguró que era posible determinar los patrones y ritmos de diseminación de la influenza y gripe estacional de forma instantánea mediante el análisis de los datos introducidos por millones de internautas en el buscador de Google. La clave era detectar las palabras usualmente tecleadas por quien comienza a sentir los síntomas de tal enfermedad y luego establecer la localización geográfica de dichas solicitudes de información.

Este trabajo fue publicado en la revista Nature el 19 de febrero de ese año y la promesa de tener evaluaciones en tiempo real de inmediato llamó la atención de las autoridades sanitarias de EU, las cuales, al día de hoy, aún precisan semanas para armar diagnósticos similares. Así nació Google Flu Trends, sitio dedicado a monitorear la incidencia de gripe e influenza en 25 países y que en algún momento logró una precisión del 97 por ciento, hasta que una larga cadena de fallos llevaron al cierre de la página, lo que muestra el gran potencial de la ciencia de datos y lo mucho que le resta por avanzar.

Para el profesor Benítez, a fin de entender todo lo que se puede hacer en este campo es preciso antes tener claro que datos e información no son lo mismo. “Un dato puede ser casi cualquier cosa: un carácter, una palabra, un audio, un video, una imagen, una inversión, una cifra o un cromosoma, es decir, englobamos bajo ese nombre a todo elemento susceptible de ser considerado una unidad. El objetivo aquí es sacar información a partir de estos datos, pero con rigor científico”.

Aunque hablar de predicciones derivadas de la lectura de complejos entramados digitales suena a algo del futuro, la nueva carrera de la UNAM fue creada para responder a las exigencias del presente, pues hay un vasto mercado interesado en adentrarse en los horizontes que desde aquí se abren: casas de Bolsa, investigación médica, estudios sociales, análisis de ecosistemas, diseño urbano y la lista sigue.

“La pregunta aquí sería: ¿puedo extraer información de cualquier dato?, y la respuesta es sí, y a partir de éste generar modelos, entender comportamientos y más. De ahí la gran demanda por estos científicos capaces de, con base en un cúmulo de unidades, crear representaciones para planear, modificar o hacer prospectivas de muchos fenómenos, y de arrojar algo de luz en casi todas las áreas”.

Una disciplina joven

El término “científico de datos” fue acuñado en 2008 por directivos de LinkedIn y Facebook —casi de botepronto— para referirse a aquellos especialistas que a diario lidiaban con enormes cantidades de información. Esto demuestra que se trata de una disciplina muy joven y, además, nacida al calor de las exigencias del mundo actual.

Sobre por qué se requieren cada vez más personas versadas en este rubro, el investigador Thomas H. Davenport explica: “Pensemos en este enorme cúmulo de datos como en una ola de dimensiones épicas que apenas se está formando. Si quieres montarte en ella antes de que rompa sobre ti necesitarás gente que sepa surfear”.

Este cambio acelerado de paradigmas ha sido tan notorio que ya desde 2015 un grupo de académicos —entre ellos el profesor Héctor Benítez— comenzó a reunirse para discutir qué tan viable era crear la licenciatura de Ciencia de Datos en la UNAM. “Y todo empezó a tomar cauce hace un par de años, cuando integramos una comisión encabezada por el Centro Virtual de Computación (CViCom). Estar así organizados nos permitió armar el plan de estudios, dar pasos firmes y llegar finalmente hasta este punto: el de estar listos ya para recibir a nuestra primera generación de jóvenes a partir de agosto”.

Tom Davenport calificó a la Ciencia de Datos como “el trabajo más sexy del siglo XXI”, no sin antes aclarar que por sexyse refiere a poseer cualidades muy difíciles de encontrar y sumamente atractivas para los empleadores, algo parecido a lo que pasó en la década de los 80 con los quants o analistas cuantitativos (matemáticos y físicos que aplicaban lo que sabían de ciencia en el mundo de las finanzas y que llegaron a ser llamados los alquimistas de Wall Street), o con los ingenieros computacionales a inicios de los años 90.

Para finalizar, el doctor Benítez expresó su optimismo por el camino que hay delante y que para la UNAM arranca con la puesta en marcha de esta carrera. “Deseamos que estos jóvenes desarrollen esa capacidad de abstracción tan propia de quien se dedica a las ciencias matemáticas y computacionales, al tiempo que perfeccionan las habilidades comunicativas inherentes de quien trabaja con gente de disciplinas distintas. Sólo mediante el diálogo sostenido podremos lograr eso que tanto buscamos: hacer que el dato nos hable”.

Fuente UNAM Global mayo 19, 2019
http://www.unamglobal.unam.mx/?p=65431