Scraping y minería de datos para periodistas

18 agosto, 2016

Nuevo curso en portugués de periodismo de datos enseña cómo automatizar la recolección de datos de la web

This post is also available in: Inglés Español Portugués, Brasil

La etapa más ardua del periodismo de datos suele ser la recolección, especialmente cuando el periodista necesita hojas de cálculo estructuradas a partir de informes en PDF, páginas de internet o redes sociales. El nuevo curso en línea en portugués ofrecido por el Centro Knight y la Escola de Dados le mostrará cómo evitar ese problema y automatizar la recolección de datos de la web.

El curso ‘Raspado y minería de datos para periodistas’ será impartido del 5 de septiembre al 2 de octubre por Marco Túlio Pires, coordinador general de la red Escola de Dados, a través de JournalismCourses.org, la plataforma de aprendizaje a distancia del Centro Knight para el Periodismo en las Américas de la Universidad de Texas en Austin.

Este se trata de un BOC (por sus siglas en inglés: big online course), un tipo de curso por internet lanzado el año pasado por el Centro Knight para crear oportunidades de formación más avanzadas y más especializadas que los cursos MOOC (cursos masivos en línea). A diferencia de los MOOC, que suelen tener miles de estudiantes y ser gratuitos, los BOC tienen un número limitado de estudiantes y un costo. Este BOC tiene una cuota de inscripción de US 95 dólares, que debe ser pagado con una tarjeta de crédito. Por lo tanto, los cupos son limitados; la inscripción puede realizarse en este enlace.

Raspagem e Mineração de Dados para Jornalistas
Raspagem e Mineração de Dados para Jornalistas

“El ‘raspado’ es importante porque le da al periodista la condición para organizar sus propias bases de datos a partir de información que no se había reunido de manera estructurada”, dijo Pires. “Es posible automatizar la recolección de datos de la web, en documentos de texto y de fotos. Es decir, las tareas que antes le llevarían semanas o meses para ser realizadas por un grupo de trabajo, con el raspado y la programación pueden ser realizadas en instantes”.

Los participantes deben tener alguna experiencia previa con la estructuración de páginas web, formatos comunes como CSV y XLS, nociones básicas de periodismo de datos, pero no tienen que haber tomado el curso introductorio del Centro Knight ‘Técnicas básicas del periodismo de datos’. Todos los estudiantes tendrán acceso gratuito a los recursos del curso masivo para conocer o recordar los fundamentos del periodismo de datos.

Este BOC estará dividido en módulos semanales que incluyen materiales multimedia, quizzes y foros de discusión. Cada semana tendrá un enfoque diferente: raspado de redes sociales, de archivos PDF, de páginas web y raspado con programación de computadoras usando el lenguaje Python. Los participantes aprenderán los principios fundamentales de rapado de datos en el contexto del periodismo con ejemplos y actividades prácticas.

La mayoría de las actividades del curso pueden ser realizadas en los días y horarios elegidos por los estudiantes. Sin embargo, hay plazos sugeridos para cada semana. La cuota de pago para participar del curso incluye el derecho a un certificado electrónico de participación que estará disponible para los estudiantes que completen con éxito el curso. Tenga en cuenta que este certificado no tiene ningún crédito académico.

El BOC de raspado de datos es una profundización del curso masivo, abierto y en línea (MOOC por sus siglas en inglés) sobre periodismo de datos ofrecido por el Centro Knight en 2015 durante cinco semanas. El raspado de datos fue tratado durante el segundo módulo, y ahora los participantes tendrán la oportunidad de perfeccionar esa área en particular. El MOOC de periodismo de datos llegó a tener más de 5.000 personas de 92 países. Es la primera vez que el Centro Knight ofrece un curso de nivel intermedio sobre este tema.

Marco Tulio Pires es un periodista y programador, fue becario asociado de la Knight-Wallace Fellowship, donde estudió Visualización de Datos y Estadística en la Escuela de Información de la Universidad de Michigan. También estudió coordinación de proyectos y empresas sociales en la Escuela de Negocios de la Universidad de Georgetown en el programa de Liderazgo Global de Competitividad. Trabajó como productor y coordinador de noticias de televisión en TV Globo, reportero de ciencia de Veja y asesor técnico de la Secretaría de Desarrollo Social del gobierno de São Paulo, responsable de las áreas de Innovación, Tecnología y Transparencia. Actualmente es el coordinador general de la Escuela de Datos (Escola de Dados) y uno de los fundadores de la agencia de periodismo de datos Jornalismo++.

“Estamos encantados con esta asociación con Escola de Dados de Brasil para llevar a los periodistas brasileños un curso tan práctico y tan útil, que resuelve los problemas específicos que enfrentan día a día los reporteros que se están especializando en el periodismo de datos”, dijo el profesor Rosental Alves, fundador y director del Centro Knight de la Universidad de Texas en Austin. “Estamos rodeados de grandes cantidades de datos, y los periodistas y los medios de comunicación han luchado por buscarlos y presentarlos de la más eficaz y mejor manera posible”.

“El periodismo de datos no es un lujo, no es un género de reportería para las salas de redacción más sofisticadas y caras del mundo. Se trata de una serie de técnicas y metodologías de trabajo de investigación periodística indispensable en cualquier redacción hoy en día”, agregó el profesor Rosental Alves.

Escola de Dados es una red de organizaciones sin ánimo de lucro que opera en 13 países y existe en Brasil desde 2013. Su objetivo principal es ayudar a activistas y periodistas a comprender el mundo de los datos para que puedan tener el mayor impacto en sus actividades profesionales. La Escola también organiza Global Fellowship, identificando y entrenando a líderes locales para elevar el nivel de alfabetización en información en diferentes partes del mundo.

El Centro Knight para el Periodismo en las Américas fue creado en 2002 por el profesor Rosental Calmon Alves, titular de la Cátedra Knight de Periodismo y la Cátedra Unesco de Comunicación en la Escuela de Periodismo de la Universidad de Texas en Austin. El programa de aprendizaje a distancia del Centro Knight se mantiene gracias al apoyo de la John S. y James L. Knight Foundation, la Facultad Moody de Comunicación de la Universidad de Texas y de otros donantes; así como de los ingresos procedentes de las cuotas de inscripción y de emisión de certificados. Desde 2012, los cursos MOOC y otros cursos en línea de periodismo del Centro Knight han llegado a más de 70.000 personas de 169 países.