Big Data y la manipulación
Con los últimos escándalos de Facebook y Cambridge Analytica, hablar de manipulación de datos masivos parece una mala palabra. Pero la big data procesada adecuadamente, dicen tres científicos, es fundamental para un Estado. Puede mejorar el diseño, la implementación y la evaluación de las políticas públicas. Un texto que alienta a la comunidad científica a explicar cuestiones que, a veces, políticos, referentes o periodistas comunican mal.
Inteligencia artificial
NO CULPES A LA BIG DATA
Por Laura Ación Nicolás D’Ippólito Por Walter Sosa Escudero
Se recomienda leer la nota completa en su fuente: Revista Anfibia
Todos los días aparece una nueva tecnología. Nuestro teléfono celular o el software de nuestras computadoras a veces cambian más rápido que nuestra capacidad de adaptación. Esta sensación mundana alcanza también al ámbito profesional, desde los funcionarios públicos, pasando por el sector privado y la prensa, hasta los que hacemos avanzar la ciencia y la tecnología. Todos estamos en un proceso de adaptación permanente. La adopción de todo este conocimiento nuevo no es trivial y conlleva un enorme desafío a la hora de pensar, diseñar e implementar políticas públicas que se nutran de los avances de la ciencia y la tecnología.
Inteligencia artificial, aprendizaje automático e internet de las cosas. Nuestro teléfono nos “entiende” cuando le hablamos. Una radiografía de pulmón tomada en La Rioja puede ser evaluada instantáneamente en Boston. Generamos parvas de datos y una red social los facilita a una empresa privada para una campaña electoral. Nuestro vecino fue preso ayer por matar a alguien que iba a conocer la semana que viene. Etcétera. Tanta tecnología nueva que, si no se sabe bien de qué se trata, se está muy cerca de meter la pata y hablar de ciencia ficción.
Entonces ¿adoptamos ciegamente la última tecnología y le exigimos al Estado que también lo haga? ¿o nos quedamos como estamos, sin arriesgarnos a innovar y así evitamos que terminen metiéndonos presos por crímenes que aún no cometimos?
urtubey_carta_portyap_01
Ninguno de los extremos es razonable. Creemos que la solución pasa por darle más espacio a los que estudian estas tecnologías nuevas; pedirles a los profesionales de ciencia y tecnología que nos expliquen con claridad, para poder estar mejor informados y así evitar que ningún oráculo decida predestinarnos a nada.
Acá es donde los científicos nos encontramos con el desafío de comunicar. Detrás de muchas de las raras tecnologías nuevas hay métodos sofisticados, claros para los expertos pero percibidos como incomprensibles “cajas negras” para los legos. En particular, en el ámbito de la política social, la adopción de una tecnología depende tanto de su desempeño como de su capacidad de convencer a interlocutores no necesariamente expertos, que deben respaldar social y políticamente el uso de dichas tecnologías. El desafío no es descartar las tecnologías sino involucrar grupos interdisciplinarios que generen esta suerte de cadena de confianza que demanda la implementación de nuevas tecnologías en la cuestión pública.
Recientemente el Gobernador de Salta se refirió a un programa piloto para prevenir el embarazo adolescente. Mencionó que su equipo estaba trabajando en un programa que, en base a inteligencia artificial, posibilita “prever 5 o 6 años antes con nombre, apellido y domicilio, cuál es una niña, futura adolescente, que está en un 86% predestinada a tener un embarazo adolescente”. El tema explotó en los medios y las redes sociales, y varios científicos reaccionaron, en tono humorístico y también seriamente, apuntando al lado ético y metodológico de este tipo de programas.
Como científicos experimentados en manejo de datos de salud y nuevas tecnologías, celebramos el uso de información pública procesada adecuadamente, para elaborar políticas públicas basadas en evidencia. Bien usados, los datos en poder del Estado ayudarían a mejorar considerablemente el diseño, implementación y evaluación de la política pública, en particular en el ámbito de la salud. Los dichos del gobernador ofrecen una clara oportunidad para involucrar a los profesionales de la ciencia y la tecnología. Es muy importante salir del ámbito de expertos, desde donde habitualmente escribimos, para contribuir más y mejor a la sociedad. El análisis de los datos colectados por el Estado para la prevención de temas asociados a la vida de las personas es un tema sensible y de alto impacto social que, sin dudas, no tomamos a la ligera. El ejemplo que nos convoca es el embarazo adolescente, pero podría ser la prevención del crimen, un diagnóstico médico o una condena a prisión. No es todavía buena idea dejar ese tipo de predicciones a la tecnología. Detrás de la tecnología hay personas que la diseñan y se requiere de muchos puntos de vista, con distintos saberes, para que sea buena consejera.
urtubey_carta_col_03
En sí mismo, ningún análisis de datos públicos, por sofisticado que sea, realizará acciones que prevengan ni el embarazo adolescente no deseado ni ninguna otra condición. Por el contrario, esta tarea recae en las políticas públicas que deberían diseñarse en base al estudio pormenorizado de los datos. Por ejemplo, si a partir del análisis de los datos colectados por los servicios de salud de la provincia de Salta, se identificaran regiones donde la cantidad de embarazos adolescentes es preocupante, una política efectiva sería reforzar la aplicación del Programa Nacional de Educación Sexual Integral (Ley 26.150). Los datos de los servicios de salud permitirían detectar el problema y, posiblemente, evaluar el impacto de mejorar la educación sexual para bajar la cantidad de embarazos adolescentes.
¿Qué tiene que ver la inteligencia artificial en todo esto? Por lo general, se entiende como inteligencia artificial a la capacidad de las máquinas de copiar el comportamiento humano. Es común confundir inteligencia artificial con aprendizaje automático. Si bien ambos conceptos están relacionados, en el contexto de los dichos del gobernador, el segundo sería el término correcto. Se trata de herramientas de análisis que permiten extraer conocimiento a partir de datos, con mayor o menor intervención humana, de ahí lo de “automático”. Por ejemplo, a partir de una base de datos que contenga indicadores socioeconómicos, usando un método de aprendizaje automático, se puede construir un modelo que prediga la probabilidad de que ocurra un embarazo adolescente.
Nótese que se habla de “predecir la probabilidad” y no de “predestinar”. Parece una diferencia menor, pero no lo es. Predestinar indica determinar un evento con anticipación. El destino incluye la idea de que el evento está determinado y es inevitable. Por otro lado, predecir una probabilidad indica que algo puede pasar (o no). Cuando se dice que una adolescente tiene un 86% de probabilidad de tener un embarazo, se está diciendo que, aproximadamente, de 100 adolescentes con las mismas características, 86 podrían tener un embarazo. No quiere decir que tendrán sin lugar a dudas un embarazo. Y mucho menos que si tomáramos una de ellas en particular, podemos predecir que será madre adolescente con un 86% de certeza. Sería similar a cuando se dice que hay 86% de probabilidad de granizo. ¿Cuántas veces resulta que no sólo no graniza, sino que hay un sol radiante? Traducir probabilidades en certezas conlleva errores, que muchas veces son éticamente injustificables. Afortunadamente, y a diferencia de la muchas cuestiones climáticas, en temas de salud las chances de embarazo adolescente indeseado pueden disminuirse considerablemente con políticas públicas de educación, seguridad, vivienda, salud y trabajo.
Este ejemplo que nos convoca también pone sobre la mesa un delicado problema de privacidad. Para actores como el INDEC y para quienes hacemos investigación con datos relacionados con personas esto no es nuevo. Identificar con nombre, apellido y domicilio a una persona, más aún menor de edad (una de las poblaciones consideradas vulnerables por las normas internacionales de bioética) sería gravísimo y una violación de las normas más básicas de privacidad. No es necesario identificar a nadie para poner en marcha políticas públicas basadas en evidencia. Los modelos de aprendizaje automático pueden ser de muchísima utilidad para, por ejemplo, señalar grupos sobre los cuales aplicar acciones sociales sin necesidad de identificar a las personas. Esta no es una estrategia nueva ni rara. Es la forma en que se hace investigación en salud pública tanto en Argentina como en el resto del mundo desde hace décadas.
urtubey_carta_portyap_03
Salvaguardar la identidad de quienes aportan datos es una acción prioritaria, incluso por encima de cualquier conocimiento que se quiera extraer de los mismos. Nombre, apellido y domicilio son algunos de los identificadores evidentes de una persona, pero hay muchas formas alternativas de identificar a una persona. Una que se suele pasar por alto es que en lugares con pocos habitantes donde, siguiendo con el ejemplo, la cantidad de adolescentes podría no superar la veintena, publicar que en ese lugar en un momento determinado hubo una adolescente embarazada, es también una violación de la privacidad. Cualquier persona de ese lugar y la persona misma sabrá de quién se trata, aunque no se publique ni su nombre ni su apellido. Garantizar la privacidad de todos incluye que cuando se reportan los resultados de los análisis tampoco se pueda identificar a los que cedieron sus datos para que todos aprendamos. Esta es una de las razones por las cuales el INDEC es muy cuidadoso en lo que se refiere a la difusión de datos individuales.
En 1952, un joven José Balseiro demostró la inviabilidad del proyecto de fusión nuclear que el austríaco Richter había ofrecido al Presidente Perón. De ahí nació uno de los orgullos de la ciencia y la tecnología argentina que incluye el Instituto que hoy honra a Balseiro con su nombre. Este es un ejemplo histórico de que la adopción de nuevas tecnologías requiere una delicada interacción entre la cosa pública y la comunidad de expertos. Afortunadamente, nuestro país cuenta con recursos altamente capacitados – por ejemplo, en el CONICET y en el sistema de universidades – que pueden aportar las garantías científicas, comunicacionales y éticas para que las nuevas tecnologías aporten lo mejor que tienen para ofrecer a pesar de sus limitaciones.
[Todas nuestras actividades diarias son medidas y analizadas por algún tipo de máquina. Nos escuchan, saben nuestros recorridos, nuestros horarios, la fuerza que usamos para apretar un botón, la velocidad con que leemos o comemos. ¿Cómo les enseñamos todo eso? ¿Cómo se entrena a un algoritmo? ¿Cómo hacemos para no perder el control humano? En este episodio de #TodoEsFake, el físico y Doctor en neurociencia Martín Elías Costa nos ayuda a entender a los hombres que programan máquinas].
Inteligencia artificial
NO CULPES A LA BIG DATA
Por Laura Ación Nicolás D’Ippólito Por Walter Sosa Escudero
Se recomienda leer la nota completa en su fuente: Revista Anfibia
Todos los días aparece una nueva tecnología. Nuestro teléfono celular o el software de nuestras computadoras a veces cambian más rápido que nuestra capacidad de adaptación. Esta sensación mundana alcanza también al ámbito profesional, desde los funcionarios públicos, pasando por el sector privado y la prensa, hasta los que hacemos avanzar la ciencia y la tecnología. Todos estamos en un proceso de adaptación permanente. La adopción de todo este conocimiento nuevo no es trivial y conlleva un enorme desafío a la hora de pensar, diseñar e implementar políticas públicas que se nutran de los avances de la ciencia y la tecnología.
Inteligencia artificial, aprendizaje automático e internet de las cosas. Nuestro teléfono nos “entiende” cuando le hablamos. Una radiografía de pulmón tomada en La Rioja puede ser evaluada instantáneamente en Boston. Generamos parvas de datos y una red social los facilita a una empresa privada para una campaña electoral. Nuestro vecino fue preso ayer por matar a alguien que iba a conocer la semana que viene. Etcétera. Tanta tecnología nueva que, si no se sabe bien de qué se trata, se está muy cerca de meter la pata y hablar de ciencia ficción.
Entonces ¿adoptamos ciegamente la última tecnología y le exigimos al Estado que también lo haga? ¿o nos quedamos como estamos, sin arriesgarnos a innovar y así evitamos que terminen metiéndonos presos por crímenes que aún no cometimos?
urtubey_carta_portyap_01
Ninguno de los extremos es razonable. Creemos que la solución pasa por darle más espacio a los que estudian estas tecnologías nuevas; pedirles a los profesionales de ciencia y tecnología que nos expliquen con claridad, para poder estar mejor informados y así evitar que ningún oráculo decida predestinarnos a nada.
Acá es donde los científicos nos encontramos con el desafío de comunicar. Detrás de muchas de las raras tecnologías nuevas hay métodos sofisticados, claros para los expertos pero percibidos como incomprensibles “cajas negras” para los legos. En particular, en el ámbito de la política social, la adopción de una tecnología depende tanto de su desempeño como de su capacidad de convencer a interlocutores no necesariamente expertos, que deben respaldar social y políticamente el uso de dichas tecnologías. El desafío no es descartar las tecnologías sino involucrar grupos interdisciplinarios que generen esta suerte de cadena de confianza que demanda la implementación de nuevas tecnologías en la cuestión pública.
Recientemente el Gobernador de Salta se refirió a un programa piloto para prevenir el embarazo adolescente. Mencionó que su equipo estaba trabajando en un programa que, en base a inteligencia artificial, posibilita “prever 5 o 6 años antes con nombre, apellido y domicilio, cuál es una niña, futura adolescente, que está en un 86% predestinada a tener un embarazo adolescente”. El tema explotó en los medios y las redes sociales, y varios científicos reaccionaron, en tono humorístico y también seriamente, apuntando al lado ético y metodológico de este tipo de programas.
Como científicos experimentados en manejo de datos de salud y nuevas tecnologías, celebramos el uso de información pública procesada adecuadamente, para elaborar políticas públicas basadas en evidencia. Bien usados, los datos en poder del Estado ayudarían a mejorar considerablemente el diseño, implementación y evaluación de la política pública, en particular en el ámbito de la salud. Los dichos del gobernador ofrecen una clara oportunidad para involucrar a los profesionales de la ciencia y la tecnología. Es muy importante salir del ámbito de expertos, desde donde habitualmente escribimos, para contribuir más y mejor a la sociedad. El análisis de los datos colectados por el Estado para la prevención de temas asociados a la vida de las personas es un tema sensible y de alto impacto social que, sin dudas, no tomamos a la ligera. El ejemplo que nos convoca es el embarazo adolescente, pero podría ser la prevención del crimen, un diagnóstico médico o una condena a prisión. No es todavía buena idea dejar ese tipo de predicciones a la tecnología. Detrás de la tecnología hay personas que la diseñan y se requiere de muchos puntos de vista, con distintos saberes, para que sea buena consejera.
urtubey_carta_col_03
En sí mismo, ningún análisis de datos públicos, por sofisticado que sea, realizará acciones que prevengan ni el embarazo adolescente no deseado ni ninguna otra condición. Por el contrario, esta tarea recae en las políticas públicas que deberían diseñarse en base al estudio pormenorizado de los datos. Por ejemplo, si a partir del análisis de los datos colectados por los servicios de salud de la provincia de Salta, se identificaran regiones donde la cantidad de embarazos adolescentes es preocupante, una política efectiva sería reforzar la aplicación del Programa Nacional de Educación Sexual Integral (Ley 26.150). Los datos de los servicios de salud permitirían detectar el problema y, posiblemente, evaluar el impacto de mejorar la educación sexual para bajar la cantidad de embarazos adolescentes.
¿Qué tiene que ver la inteligencia artificial en todo esto? Por lo general, se entiende como inteligencia artificial a la capacidad de las máquinas de copiar el comportamiento humano. Es común confundir inteligencia artificial con aprendizaje automático. Si bien ambos conceptos están relacionados, en el contexto de los dichos del gobernador, el segundo sería el término correcto. Se trata de herramientas de análisis que permiten extraer conocimiento a partir de datos, con mayor o menor intervención humana, de ahí lo de “automático”. Por ejemplo, a partir de una base de datos que contenga indicadores socioeconómicos, usando un método de aprendizaje automático, se puede construir un modelo que prediga la probabilidad de que ocurra un embarazo adolescente.
Nótese que se habla de “predecir la probabilidad” y no de “predestinar”. Parece una diferencia menor, pero no lo es. Predestinar indica determinar un evento con anticipación. El destino incluye la idea de que el evento está determinado y es inevitable. Por otro lado, predecir una probabilidad indica que algo puede pasar (o no). Cuando se dice que una adolescente tiene un 86% de probabilidad de tener un embarazo, se está diciendo que, aproximadamente, de 100 adolescentes con las mismas características, 86 podrían tener un embarazo. No quiere decir que tendrán sin lugar a dudas un embarazo. Y mucho menos que si tomáramos una de ellas en particular, podemos predecir que será madre adolescente con un 86% de certeza. Sería similar a cuando se dice que hay 86% de probabilidad de granizo. ¿Cuántas veces resulta que no sólo no graniza, sino que hay un sol radiante? Traducir probabilidades en certezas conlleva errores, que muchas veces son éticamente injustificables. Afortunadamente, y a diferencia de la muchas cuestiones climáticas, en temas de salud las chances de embarazo adolescente indeseado pueden disminuirse considerablemente con políticas públicas de educación, seguridad, vivienda, salud y trabajo.
Este ejemplo que nos convoca también pone sobre la mesa un delicado problema de privacidad. Para actores como el INDEC y para quienes hacemos investigación con datos relacionados con personas esto no es nuevo. Identificar con nombre, apellido y domicilio a una persona, más aún menor de edad (una de las poblaciones consideradas vulnerables por las normas internacionales de bioética) sería gravísimo y una violación de las normas más básicas de privacidad. No es necesario identificar a nadie para poner en marcha políticas públicas basadas en evidencia. Los modelos de aprendizaje automático pueden ser de muchísima utilidad para, por ejemplo, señalar grupos sobre los cuales aplicar acciones sociales sin necesidad de identificar a las personas. Esta no es una estrategia nueva ni rara. Es la forma en que se hace investigación en salud pública tanto en Argentina como en el resto del mundo desde hace décadas.
urtubey_carta_portyap_03
Salvaguardar la identidad de quienes aportan datos es una acción prioritaria, incluso por encima de cualquier conocimiento que se quiera extraer de los mismos. Nombre, apellido y domicilio son algunos de los identificadores evidentes de una persona, pero hay muchas formas alternativas de identificar a una persona. Una que se suele pasar por alto es que en lugares con pocos habitantes donde, siguiendo con el ejemplo, la cantidad de adolescentes podría no superar la veintena, publicar que en ese lugar en un momento determinado hubo una adolescente embarazada, es también una violación de la privacidad. Cualquier persona de ese lugar y la persona misma sabrá de quién se trata, aunque no se publique ni su nombre ni su apellido. Garantizar la privacidad de todos incluye que cuando se reportan los resultados de los análisis tampoco se pueda identificar a los que cedieron sus datos para que todos aprendamos. Esta es una de las razones por las cuales el INDEC es muy cuidadoso en lo que se refiere a la difusión de datos individuales.
En 1952, un joven José Balseiro demostró la inviabilidad del proyecto de fusión nuclear que el austríaco Richter había ofrecido al Presidente Perón. De ahí nació uno de los orgullos de la ciencia y la tecnología argentina que incluye el Instituto que hoy honra a Balseiro con su nombre. Este es un ejemplo histórico de que la adopción de nuevas tecnologías requiere una delicada interacción entre la cosa pública y la comunidad de expertos. Afortunadamente, nuestro país cuenta con recursos altamente capacitados – por ejemplo, en el CONICET y en el sistema de universidades – que pueden aportar las garantías científicas, comunicacionales y éticas para que las nuevas tecnologías aporten lo mejor que tienen para ofrecer a pesar de sus limitaciones.
[Todas nuestras actividades diarias son medidas y analizadas por algún tipo de máquina. Nos escuchan, saben nuestros recorridos, nuestros horarios, la fuerza que usamos para apretar un botón, la velocidad con que leemos o comemos. ¿Cómo les enseñamos todo eso? ¿Cómo se entrena a un algoritmo? ¿Cómo hacemos para no perder el control humano? En este episodio de #TodoEsFake, el físico y Doctor en neurociencia Martín Elías Costa nos ayuda a entender a los hombres que programan máquinas].
Comentarios
Publicar un comentario