#34 Ciências sociais computacionais, dados abertos e fundiários
ABRIL/2022
Olá,
Em maio, vamos começar um novo formato para o Boletim. Agora, além deste resumo das principais notícias enviado no final do mês, teremos uma edição extra.
A principal mudança é que esta seção inicial, onde compartilhamos informações sobre o trabalho da Escola de Dados, será migrada para o novo comunicado, que também reforçará as datas importantes da seção Agenda. Assim, você não perde nenhuma oportunidade e fica por dentro de nossas ações e novidades.
Esta é apenas a primeira de várias novidades que estamos preparando para o programa de membresia. No mês que vem, iremos anunciar novos benefícios e sorteios, então dê uma checada extra na sua caixa de entrada.
Boa leitura e até a próxima,
Adriano Belisario
Coordenador da Escola de Dados
AGENDA
Oportunidades e prazos para não perder de vista
• 02/05 – Prazo para se candidatar a uma das 60 vagas do Ministério da Agricultura, Pecuária e Abastecimento (Mapa), para profissionais com ensino superior em áreas como análise e governança de dados.
• 09/05 – Último dia para acadêmicos do sul global com doutorado se inscreverem nas bolsas internacionais oferecidas pela Urban Studies Foundation.
•09/05 – Prazo para submeter alguma palestra, oficina ou artigo na Conferência Computation + Journalism 2022.
• 10/05 – Data limite para se inscrever em bolsas de tecnologia no valor de €1.000 mensais, oferecidos pelo Bellingcat.
• 10/05 a 28/06 – Curso Visualização de Dados com Python, facilitado pela cientista de dados Regina Pose, no Sesc São Paulo.
• 11/05 – Lançamento da ferramenta ‘Data Barometer’ que mede a situação dos dados ao redor do mundo.
• 13/05 – Último dia para solicitar à Open Knowledge Foundation apoio financeiro para eventos ou atividades presenciais relacionadas ao Open Data Day.
• 23/05 – Tecnologia da informação para o bem: último dia para envio de todos os tipos de contribuições para a conferência GoodIT 2022.
• 24/05 – Data limite para enviar seus notebooks ou artigos sobre código aberto ao Google Open Source Expert Prize, prêmio oferecido em parceria com o Kaggle.
• 29/05 – Prazo para chamada de manifestação de interesse para o projeto ‘Incubando a IA Feminista’, organizado pela Alianza por los Algaritmos Inclusivos.
• 06 a 10/06 – Acontece a 11ª RightsCon Summit, uma conferência sobre direitos humanos na era digital.
• 06 a 10/06 – 31º Encontro anual da Associação Nacional dos Programas de Pós-Graduação em Comunicação (Compós), que conta com workshops sobre dados e métodos digitais.
• 07/06 – Data limite para do Desafio de Inovação para América Latina, com premiação de até US$ 250 mil, oferecido pela Google News Initiative.
• 07 a 09/06 – II Encontro de Mulheres na Estatística e Ciências de Dados (EMECD), que ocorre online e presencialmente no Rio de Janeiro.
• 09 a 11/06 – Conferência Computation + Journalism 2022, sediada pelo The Brown Institute.
• 15/06 – Prazo para submeter trabalhos para concorrer a 10ª edição do prêmio Gabo, organizado pela Fundação Gabo.
• 25 a 28/06 – rstudio::conf(2022), conferência organizada pela comunidade do RStudio, acontece nos Estados Unidos.
• 30/06 – Último dia para se inscrever ao Prêmio Latinoamericano de Jornalismo Investigativo, com premiação de US$5 mil, organizado pelo El Instituto Prensa y Sociedad (IPYS).
• 19 a 28/07 – Acontece o Transform 2022, evento voltado para Inteligência Artificial nos negócios e na tecnologia, organizado pela VentureBeat.
• 03 a 07/08 – 17º Congresso Internacional de Jornalismo Investigativo da Abraji, em formato híbrido.
• 26 a 28/08 – Data da Python Nordeste, que este ano será em Aracaju.
NO MUNDO DOS DADOS
Notícias e discussões quentes
Mais reconhecimento para os dados abertos
Em editorial publicado no início de abril, a revista Nature defende que já é hora de reconhecer a autoria e importância da publicação de dados abertos, assim como se reconhece o trabalho dos autores de artigos acadêmicos. “Os sistemas mundiais de avaliação da ciência (ainda) não valorizam dados compartilhados abertamente da mesma forma que valorizam resultados como artigos de revistas acadêmicas ou livros. […] A revolução dos dados abertos vai parar a menos que isso mude”, afirmou a revista em editorial.
Sigma Awards anuncia ganhadores de 2022
Egomêtro do projeto “Yeah, el barrio, drogas y lujo”, reportagem sobre trap do La Nacion (Argentina)
A América Latina se destacou em 2022 na maior premiação do jornalismo de dados do mundo, o Sigma Awards. Apesar do Brasil ter sido o segundo país com mais indicações, atrás apenas dos Estados Unidos, nenhum projeto nacional ganhou. Trabalhos na área de saúde no Peru, política na Colômbia e música na Argentina foram alguns dos destaques selecionados dentre os mais de 600 inscritos. A Escola de Dados e o Prêmio Cláudio Weber Abramo de Jornalismo de Dados são parceiros da premiação desde 2021.
Raspar dados não é crime (de novo!)
A Corte de Apelos dos Estados Unidos para o 9º Circuito decidiu que a raspagem de dados acessíveis publicamente na internet não fere o CFAA, lei que rege o que é hacking de computador sob a lei dos EUA. Este segundo julgamento ratifica a decisão de 2019 da mesma Corte, e representa vitória para arquivistas, acadêmicos, pesquisadores e jornalistas que usam ferramentas para coletar em massa, ou raspar, informações públicas na web.
Dados fundiários
A digitalização das informações da terra pode ser uma faca de dois gumes. De um lado, permite melhor governança para reaver patrimônios públicos ilegalmente apropriados, identificar grilagem e destinar terras para reforma agrária. Por outro, facilita que investidores e corporações tirem proveito econômico e extraiam recursos naturais, favorecendo AgTechs e grilagem digital.
Esta é a conclusão do relatório ‘Digitalização da terra: mais dados, menos terras’, publicado pela GRAIN, uma entidade não governamental. Segundo ela, no Brasil, desmatamentos e incêndios têm sido estimulados a partir destes dados, tornando as terras disponíveis para comercialização.
SAIBA MAIS
Para aprender mais e aprender sempre
Políticas públicas e ciências sociais computacionais
A Comissão Europeia publicou um relatório mapeando a demanda de trabalhos de ciências sociais computacionais para resolver desafios sociais nas políticas públicas. Além de abordar questões éticas e metodológicas, o trabalho mostra como esta nova área das ciências sociais pode ser aplicada em temas práticos, como as mudanças climáticas, mobilidade e transporte, educação, epidemiologia, migração, macroeconomia, segurança alimentar, turismo, entre outros.
O relatório ‘Mapping the Demand Side of Computational Social Science for Policy’ será precedido pela publicação de um manual sobre o tema, ‘The Handbook of Computational Social Science for Policy’, que irá detalhar temas fundamentais das ciências sociais computacionais aplicadas às políticas públicas, especificando possíveis linhas de pesquisa aplicadas para os desafios apresentados neste primeiro relatório.
Texto como dados
Lançado pela Princeton University Press, o livro ‘Text as Data: A New Framework for Machine Learning and the Social Sciences’ aborda as principais tarefas envolvidas em projetos de pesquisa que usam textos como dados. A publicação aborda diversas etapas – representação, descoberta, mensuração, previsão e inferência causal – com uma abordagem iterativa e indutiva, voltada a projetos de pesquisa. As tarefas são apresentadas por meio de aplicações reais e exemplos.
Quem tiver interesse na área pode conferir também o curso ‘CS224U: Natural Language Understanding’, que recentemente foi disponibilizado gratuitamente pela Universidade de Stanford. E, no site da Escola de Dados, já mostramos em um post como a tecnologia é aplicada no jornalismo.
Livros e mais livros
Para quem está começando a trabalhar com dados, vale conferir o manual lançado pelo data_labe “Dados sem caô”. Em linguagem acessível, o livro dá os primeiros passos para trabalhar com dados usando R, fazer análises e criar visualizações.
Quem quiser algo mais avançado, pode conferir o rascunho do primeiro capítulo do livro The Mathematical Engineering of Deep Learning ou ainda o The Kaggle Book, apresentando tudo que é necessário para aproveitar ao máximo da mais famosa plataforma para cientistas de dados.
Tutoriais para Pythonistas
Ali Ahmadalipour publicou um notebook com códigos em Python e instruções mostrando um passo a passo para usar dados abertos para fazer análises climáticas. Nesta postagem no LinkedIn, o autor resume o objetivo e as etapas do tutorial.
No Towards Data Science, Sachin Date destrinchou a estatística por trás de modelos de regressão com efeitos fixo. Já em português, vale conferir o vídeo de Eduardo Mendes, da Live Python, que mostrou diversas formas de debugar códigos Python, usando ferramentas nativas e pacotes específicos.
SNIPPETS
Dicas curtas e certeiras
O DALL-E 2, sistema da OpenAI para criar imagens a partir de textos, apresentou alguns de seus (impressionantes) avanços. A cientista Nina da Hora fez parte da equipe para mitigar vieses na plataforma.
•
Sara Cohen reuniu apostilas, sites e tutoriais usados em suas aulas sobre reportagens com dados na Cronkite School of Journalism and Mass Communication e disponibilizou tudo em um livro online.
•
A Abraji traduziu um artigo de James Fahn sobre a importância e a complexidade do jornalismo investigativo científico para enriquecer pautas.
•
A rede Mulheres em Dados organizou um repositório no GitHub com materiais de estudos sobre SQL para iniciantes.
•
Investigações digitais: tem tutorial de geolocalização usando fotos e vídeos pelo Global Investigative Journalism Network (GIJN) e o White Hatin Spector mostrou como o Skype é uma mina de ouro pouco explorada em investigações.
•
O perfil dos administradores de dados está mudando e isso tem impactado diretamente no ecossistema de dados abertos, é o que mostra o Cities Today.
•
O site Data Minutes organizou dois artigos explicando as métricas de modelos preditivos utilizando Azure. No canal da Escola de Dados, temos um vídeo rápido sobre modelos preditivos na perspectiva da justiça algorítmica em workshop facilitado por Paolla Magalhães do Coda Br 2021.
•
A Jeduca (Associação de Jornalistas de Educação) organizou um webinário sobre microdados educacionais e LGPD com a participação de Danielle Bello, coordenadora de Advocacy e Pesquisa da Open Knowledge Brasil.
•
A Novelo Data criou ferramentas para jornalistas e pesquisadores terem acesso à base de dados de monitoramento de vídeos no YouTube, com a possibilidade de consultas via dashboard.
•
O International Journalism Festival disponibilizou em seu site alguns dos painéis que aconteceram no evento. IA e aprendizado de máquina para jornalistas, responsabilidades dos repórteres no uso da IA e gerenciamento de redações com IA foram alguns dos temas abordados.
•
O Open Refine está com pesquisa aberta para usuários com o objetivo de melhorar suas funcionalidades e sua comunidade.
•
A Nasa atualizou a documentação sobre como utilizar seus geodados e recursos GIS.
•
Na área de visualizações de dados: galeria de tabelas interativas com código reprodutível e documentação pela comunidade RStudio, tutorial de ggplot2 por Cédrich Scherer, boas práticas em design de slides e apresentações por Dorsa Amir.
•
Com base nos dados da Comissão Pastoral da Terra, a Agência Pública produziu um mapa sintetizando uma década de conflitos na Amazônia Legal.
•
A Global Investigative Journalism Network disponibilizou publicamente os vídeos de sua conferência em 2021.
INSPIRA
Trabalhos e iniciativas inovadoras para te inspirar
Sítios de antigas aldeias Xavante.
Lançada em abril, a plataforma do projeto Memória da Terra merece destaque pelo uso inovador de imagens de satélite para identificação de sítios arqueológicos. Com uma investigação do complexo arqueológico Xavante, ela alerta para o iminente risco de destruição pelo avanço do agronegócio na região, localizada na margem ocidental do Rio das Mortes, no Mato Grosso.
Na plataforma, é possível ver a reconstituição de sítios de antigas aldeias distribuídos por toda a região do Território Ancestral Xavante, trabalho feito partir de documentos históricos, como o arquivo do projeto de mapeamento “Brazil Project” (realizado entre 1966-1969 pela ditadura militar com apoio dos Estados Unidos), e com o auxílio de oficinas de cartografia etnohistórica realizadas com os anciãos, que possibilitaram a identificação do nome de cada uma das antigas aldeias.
O projeto também é parte de requerimento que solicita que o Iphan reconheça estes sítios como bens patrimoniais, para protegê-los e preservar a memória do povo Xavante. A coordenação é de Paulo Tavares, arquiteto e colaborador da agência de investigação Forensic Architecture. O trabalho e o avanço do agronegócio sobre a memória Xavante foram tema de reportagem da Piauí deste mês.
UPDATE
Atualize-se com as novidades de softwares e bases de dados
Inspirada em nosso catálogo de dados ambientais, a Earth Journalism Network lançou uma compilação de fontes de dados internacionais sobre o tema.
•
O Centro de Estudos da Metrópole (CEM) disponibilizou o acervo cartográfico georreferenciado das Unidades de Conservação (UCs) de todo o Brasil.
•
A Amazon lançou o MASSIVE, conjunto de dados contendo 1 milhão de enunciados em 51 idiomas, para ser usado em aprendizado de máquina.
•
O recém-lançado tidypandas é um pacote Python que provê uma “gramática” para manipular dados, inspirada no famosa biblioteca Tidyverse do R.
•
Depois de 1 ano e meio, a biblioteca Leaflet lançou uma nova versão, com correções de bug e diversas melhorias.
•
QGis 3.24 apresenta recursos para criar sistemas de referências de coordenadas personalizadas, opções de envio de formulários, entre outras novidades.
•
O GitHub Trends agora permite filtros por idioma: confira os repositórios em português que estão em ascensão hoje.
•
Git 2.36 chegou trazendo mudanças para a resolução de conflitos na mesclagem (merge) de códigos.
Sugestões? Envie um e-mail para [email protected].