¿De qué se trata el proyecto de alumnos del ITBA que fue premiado en la Media Party? ¿Por qué podría facilitar el trabajo de los periodistas de investigación?
“Un docente congrega a dos grupos de alumnos que, combinando sus proyectos, concretan un objetivo en común”. Con ese argumento cuasi cinematográfico podría resumirse el desempeño de los representantes del ITBA en la hackatón de la Media Party –uno de los eventos colaborativos más importantes de periodismo digital e innovación mediática-, que se llevó a cabo en el Centro Cultural Konex del 29 al 31 de agosto, y que concluyó con este equipo como uno de los ganadores.
Los estudiantes de Ingeniería Informática Horacio Miguel Gómez, Juan Pablo Orsay, Pablo Alejandro Costesich y Martín Federico Capparelli, y el profesor Ariel Aizemberg alcanzaron el primer lugar gracias al desarrollo de “NERD API”, un sistema que encuentra entidades -personas, lugares, organizaciones, y fechas- en documentos PDF, y que brinda un reporte de manera automática de la frecuencia de estas.
El proyecto compartió el premio con “Yo lo chequeo” del equipo de Chequeado, una iniciativa que busca construir una base de datos de verificaciones de noticias; “ScrapEle”, liderado por Andy Tow, un scrapper del escrutinio definitivo por mesa; y “LID Elecciones”, de la Izquierda Diario, un mapa interactivo que permite hacer análisis sociológico de los datos a través de los votos.
La iniciativa que representó al ITBA se trata en realidad de la conjunción de dos proyectos finales de carrera; Nerd API, desarrollado por Miguel Gómez y Juan Pablo Orsay; y el Extractor de Entidades en PDFs, de Pablo Costesich y Martín Capparelli. Fue justamente Aizemberg, quien decidió convocarlos para participar de la Hackatón. “Sentía que lo que estábamos haciendo podía servir a esta comunidad. Veníamos trabajando en la NERD API desde el año pasado y poco tiempo antes de la hackatón propuse el proyecto final del Extractor de Entidades en PDFs, así que llevamos a los dos equipos. La idea del extractor de entidades en PDFs me la sugirió una periodista que suele trabajar en el Consorcio Internacional de Periodistas de Investigación”, explicó.
¿Pero cuál es el uso que se le puede brindar a esta herramienta? El profesor de las materias “Base de Datos 2” y “Visualización de Información” señaló que “a priori, está pensado para periodistas que realizan investigaciones, a quienes ayudaría para no tener que leer los documentos en formato PDF; además de ofrecerles estadísticas que surgen del procesamiento del texto”. El procesamiento se hace mediante algoritmos basados en el procesamiento del lenguaje natural, aprendizaje automático y redes neuronales.
Sus funcionalidades permiten pensarlo como una aplicación con capacidad de ser utilizada en distintas áreas y para diversas funciones. La NERD API utiliza NLP (Natural Language Processing) para extraer información. El modelo que realiza el procesamiento de los textos necesita ser entrenado para ser más exacto. Su precisión depende de cómo se entrene. Nosotros lo estamos enfocando en las noticias, pero podría abocarse a otro tipo de textos”, destacó Juan Pablo.
Sus buenas repercusiones motivaron a los alumnos a continuar el desarrollo del producto, que seguramente estará online en poco más de seis meses como una herramienta de código abierto.
+NERD Api, un ejemplo de aplicación:
+La Media Party en imágenes: