#08 Inteligência artificial, Open Source Intelligence e um pouco de história…
*Este conteúdo integra o acervo de Boletins de Dados, nossos informativos mensais sobre as principais novidades e oportunidades relacionadas ao trabalho com dados. Para acessar as edições mais recentes reunidas na seção exclusiva e receber a próxima edição em sua caixa de entrada, junte-se ao nosso programa de membresia e apoie nosso trabalho.
Janeiro/2020
Olá,
Para estreitar ainda mais nossa relação, em fevereiro, faremos a primeira reunião aberta online da Escola de Dados. Nela, vamos compartilhar as frentes de trabalho atuais, nossas metas para 2020, tirar dúvidas e, principalmente, ouvir suas propostas e ideias.
Para viabilizar a participação do maior número de pessoas, nossa videoconferência acontecerá em dois dias: 11/02 e 12/02, às 19h.
Outra novidade são as inscrições abertas para nosso curso de introdução ‘Transformando Dados em Histórias’, no Rio de Janeiro e em Brasília. Como membro, você tem direito a 20% de desconto na inscrição. Aproveite! Em breve, divulgaremos as informações da edição de São Paulo.
Enquanto isso, ainda dá para participar da avaliação do programa de membros. Leva bem pouco tempo para responder as perguntas e sua avaliação irá nos ajudar a tornar o programa ainda melhor.
Até breve!
NO MUNDO DOS DADOS
Notícias e discussões quentes
Inteligência artificial sob o crivo do governo
Não há dúvidas sobre a necessidade de regular a inteligência artificial, a questão é como. Esta foi a posição defendida por Sundar Pichai, indiano que é o atual CEO do Google e da Alphabet, em um recente editorial publicado no Financial Times. A declaração de peso se deu em um momento onde este debate ganha rumos diferentes mundo afora.
Enquanto a União Europeia considera intervenções mais diretas, como o banimento temporário de tecnologias de reconhecimento facial, o poder público nos Estados Unidos trabalha principalmente com abordagens mais permissivas neste tema, que irá transformar ainda mais o modo como lidamos com dados nos próximos anos. Ainda em janeiro, a Casa Branca publicou um documento com orientações para a regulação de aplicações de inteligência artificial. O memorando traz dez princípios para a sua administração, abordando itens como confiança e participação pública, integridade científica, gerenciamento de risco, transparência, justiça e não-discriminação.
rstudio::conf
Aconteceu esta semana, em San Francisco (EUA), um dos principais encontros da comunidade de R, a rstudio::conf. Os materiais apresentados durante as oficinas e palestras estão reunidos no Github do evento.
O evento começou com a apresentação de pôsteres eletrônicos de trabalhos selecionados. O Brasil esteve representado por Fernando Barbalho, auditor federal e membro da Escola de Dados, que mostrou um dos produtos desenvolvidos por sua equipe no Tesouro Nacional, que traduz em gráficos simples uma complexa análise sobre as notas do IDEB e despesas do governo, utilizando técnicas de aprendizado de máquina. Aliás, este trabalho foi apresentado também no primeiro ciclo de webinars realizado no programa de membros da Escola de Dados.
Na conferência, Barbalho destaca que muitos debates passavam pela necessidade de comunicar melhor os resultados de trabalhos baseados em dados. “Os cientistas de dados estão muito interessados em ir além de descobrir os melhores métodos para fazer suas análises. Querem também publicar e tornar isso mais acessível ao grande público”, diz.
Ciências sociais e jornalismo
Anualmente, o Philip Meyer Journalism Award reconhece trabalhos jornalísticos de excelência que fazem uso de métodos de pesquisas das ciências sociais. O anúncio dos vencedores da edição de 2019 ocorreu em janeiro. Ganhou o primeiro lugar a série ‘Hidden Injustice‘ da Reuters, que combinou análises estatísticas avançadas com apuração em campo para abordar o papel da justiça norte-americana no desencadear da crise dos opióides, que já matou meio milhão de americanos.
SAIBA MAIS
Para aprender mais e aprender sempre
Especialistas em Open Source Intelligence (OSINT) compartilharam dicas sobre seus trabalhos, mostrando como realizar buscas avançadas na web para identificação de evidências em investigações. Em janeiro, foi publicado este vídeo introdutório sobre o assunto, mostrando um passo a passo para algumas operações básicas, e uma entrevista com Nico Dekens, mais conhecido como Dutch OSINT Guy, que falou sobre sua experiência profissional na área em um podcast.
***
O Datawrapper publicou uma série de materiais de treinamentos sobre sua ferramenta de visualização de dados. As apresentações incluem slides sobre diferentes tipos de gráficos, tabelas e mapas, além de explorar a fundo as funcionalidades e trazer alguns exercícios.
***
Um pouco de história… nesta postagem da publicação Nightingale, Jason Forrest fala sobre o legado não reconhecido de Marie Neurath para a história da visualização de dados. Ela trabalhou junto com Otto Neurath na invenção do sistema de pictogramas conhecido como Isotype, que influencia a comunicação visual até os dias atuais.
Marie Neurath concebeu seu trabalho como “The Transformer”, conceito que deu título também a um livro, publicado em 1986, onde ela explica: “A partir dos dados obtidos em palavras e figuras, é preciso encontrar um modo de extrair os fatos essenciais e colocá-los em forma de imagem. É responsabilidade do/da transformador/transformadora (“the Transformer”) entender os dados, obter todas as informações necessárias do especialista, decidir o que vale a pena transmitir ao público, como tornar isso compreensível, como vincular ao conhecimento geral ou informações já fornecidas em outros gráficos”.
SNIPPETS
Dicas curtas e certeiras sobre o trabalho com dados
Mais podcasts: o Coluna7 feito Colaborados publicou uma entrevista com outros ganhadores do Prêmio Cláudio Weber Abramo. Falaram no episódio Pedro Burgos e Luiz Fernando Toledo.
***
E o Hispters Ponto Tech fez um episódio dando uma introdução e dicas importantes na hora de trabalhar com controle de versões no Github.
***
Foi publicado um guia sobre comunicação de incertezas, voltado para analistas que trabalham com assuntos governamentais. O material traz ainda estudos de casos e uma coleção de boas práticas no tema.
***
A ABRAJI destacou o pacote em R para acessar dados das contas públicas brasileira, desenvolvido pela Comunicação Estratégica e Análise de Dados do Tesouro Nacional, e também os dados disponibilizados pelo Ipea via seu portal e um pacote em Python que traz informações sobre diversos indicadores sociais.
***
Para quem trabalha com grandes volumes de dados em Python, vale conferir a biblioteca Vaex, que promete calcular estatísticas a uma velocidade de até 1 bilhão de linhas por segundo. O cientista de dados Jesse Moore testou e aprovou, em um post sobre o assunto.
***
Em entrevista à Data Visualization Society, Ben Jones falou sobre seu livro ‘Avoiding Data Pitfalls’, que busca “vacinar” o leitor contra erros comuns na hora de lidar com dados.
INSPIRA
Trabalhos e iniciativas inovadoras para te inspirar
Mais de 700 mil documentos em português e inglês, pesando 356 gigabytes. Este foi o volume de dados que a equipe da Quartz e do International Consortium of Investigative Journalists (ICIJ) lidou para trazer à tona o LuandaLeaks, uma série de reportagens que mostrou como Isabel dos Santos, a mulher mais rica da África e filha do ex-presidente de Angola, desviou milhões de dólares.
Para isso, foi desenvolvido um sistema de inteligência artificial que ajudou os jornalistas a processarem e classificarem mais facilmente todo o conteúdo dos documentos, a despeito das diferenças de escrita, formatos de arquivo ou erros de digitação. Neste post, Jeremy Merrill detalha os bastidores deste trabalho, que usou a tecnologia Universal Sentence Encoder do Google para classificar as sentenças e palavras de forma semântica, mesmo em idiomas diferentes. Merrill conta também que a equipe do Quartz pretende utilizar solução semelhante no futuro para investigar anúncios no Facebook.
APT UPDATE
Atualize-se com as novidades de softwares para trabalhar com dados
O buscador de banco de dados do Google saiu da versão beta com novidades. Agora, o Google Dataset Search permite filtros por cobertura geográfica, tipo e licença dos dados, entre outras funcionalidades.
***
Chegou a versão 2.0 do pacote tidybayes, que auxilia usuários de R a trabalharem com modelos bayesianos. Matthew Kay conta algumas das novidades nesta sequência de postagens no Twitter.
***
Falando nisso, o Twitter lançou uma página para compartilhar dados de sua plataforma com pesquisadores acadêmicos.
***
Está no ar a versão 3.3 do OpenRefine, que inclui novidades como um novo menu para mesclar colunas.
Ficou algo de fora? Envie sugestões e dicas para [email protected]