#15 Desertos de dados, GPT-3 e jornalismo de dados local

*Este conteúdo integra o acervo de Boletins de Dados, nossos informativos mensais sobre as principais novidades e oportunidades relacionadas ao trabalho com dados. Para acessar as edições mais recentes reunidas na seção exclusiva e receber a próxima edição em sua caixa de entrada, junte-se ao nosso programa de membresia e apoie nosso trabalho.

AGOSTO/2020

Olá,

Em agosto, compartilhamos nosso ebook inédito ‘Fluxo de Trabalho com Dados: do zero à prática’ com as pessoas participantes de nosso programa de membresia. Você pode acessar o material nos formatos em PDF ou EPUB.

Também lançamos no mundo o curso ‘Jornalismo de dados para coberturas locais’, uma formação inédita que mostrará como utilizar bases de dados nacionais no jornalismo local. Trataremos de temas como eleições, Covid-19, educação, Lei de Acesso à Informação e periferias, com a participação de especialistas nos temas.

Já em setembro, iremos lançar a página da quinta edição do Coda.Br, nossa Conferência de Jornalismo de Dados e Métodos Digitais. Se sua assinatura anual estiver válida em novembro, então, você já tem acesso completo a todas as atividades.

E, aqui, neste boletim, falaremos sobre inteligência artificial (IA), os impactos da linguagem Generative Pre-trained Transformer 3 (GPT-3) na área de dados, a Lei Geral de Proteção de Dados (LGPD), desertos de dados, entre outros temas. Se você realizou sua inscrição durante nossa campanha de financiamento colaborativo em 2019, você já pode renovar sua assinatura diretamente de nosso site para continuar recebendo o Boletim, descontos e garantir sua entrada completa no Coda.Br

Desejamos uma boa leitura e um excelente mês de setembro!

Adriano Belisário
Coordenador da Escola de Dados

AGENDA

Oportunidades e prazos para não perder de vista

Pulitzer Center segue financiando propostas de jornalismo de dados. E o Rory Peck Trust COVID-19 Hardship Fund também tem apoio contínuo para jornalistas freelancers afetados pela Covid-19 (o IJNet publicou um texto sobre este fundo).

E, nas próximas semanas, a Witness realizará uma série de debates virtuais sobre deepfakes. Os encontros são nos dias 3,8,17, 24 de setembro e 1 de outubro.

Confira abaixo outras datas importantes:

• 01/09 – Último dia de inscrição em nosso curso Publicadores de Dados.

• 02/09 – Prazo do edital do Cebraspe para contratação de 350 profissionais de tecnologia, inclusive cientistas de dados, para apoio à implementação de estratégias de governo digital. Remuneração de até R$ 8.300.

• 02/09 – No webinar ‘Data Visualization Literacy’, Alberto Cairo abordará erros comuns e práticas enganosas na visualização de dados.

• 04/09 – O Facebook recebe inscrições de graduandos em computação para seu programa de mentoria tecnológica na América Latina.

• 05/09 – Chamada de propostas para o Pyjamas, conferência sobre Python.

• 09-10/09 – Ocorre a edição deste ano do evento State of the Source, focado em softwares de código-aberto e realizado pela Open Source Initiative.

• 11/09 – Inscrições para o Prêmio Mercosul de Ciência e Tecnologia de 2020, cujo tema deste ano é ‘inteligência artificial’.

• 13/09 – Acontece o 2º Domingo de Dados, evento que faz parte do Congresso da Associação Brasileira de Jornalismo Investigativo (ABRAJI), com entrada gratuita.

• 18/09 – O Tesouro Nacional recebe inscrições para prêmio de monografias e soluções em ciências de dados.

• 19/09  – Thays Lavor oferece uma oficina sobre uso de dados em checagem de fatos na cobertura eleitoral.

• 19/09 – RLadies promovem um curso de Sweeve, uma ferramenta em R que usa LaTeX para produzir publicações de alta qualidade.

• 25/09 – A pós-graduação em Design da UFRJ conta com uma linha de pesquisa dedicada à visualização de dados e está com processo seletivo para o mestrado aberto.

• 28/09 – Último dia de inscrição na segunda turma de nosso curso Dados 360.

• 01/10 – Último dia de inscrição no Prêmio Cláudio Weber Abramo de Jornalismo de Dados.

NO MUNDO DOS DADOS

Notícias e discussões quentes

Algoritmos, IA e GPT-3

“Eu não sou meu código postal”: trecho da foto de Victoria Jones (BBC), que registra um cartaz de protesto de estudantes britânicos.

Os desdobramentos de decisões baseadas em algoritmos e as tecnologias de inteligência artificial estiverem em pauta nas redes e nas ruas durante o mês de agosto. No Reino Unido, com o cancelamento do “ENEM britânico” por conta da Covid-19, o governo decidiu usar a tecnologia para calcular a nota dos alunos e o resultado foi desastroso. A matéria da BBC contou sobre os protestos e denúncias de vieses nos algoritmos, que prejudicaram estudantes de escolas localizadas em zonas mais pobres. Após o escândalo, o governo britânico recuou e abandonou esta “solução”.

Na mesma toada, foi publicada a tradução em português do artigo ‘Manifesto Nooscópio: Inteligência Artificial como Instrumento de Extrativismo do Conhecimento’, que foi destaque em nosso Boletim de maio. Nele, Matteo Pasquinelli e Vladan Joler fazem uma arguta crítica das tecnologias “inteligência artificial”.

Pasquinelli e Joler defendem que, assim como um telescópio amplia a visão, as tecnologias de inteligência artificial são um instrumento de ampliação do conhecimento, um “nooscópio”. Fonte: Tesauro, Il cannocchiale aristotelico, 1670.

Outra excelente publicação recente sobre o tema é o artigo ‘From Rationality to Relationality: Ubuntu as an Ethical and Human Rights Framework for Artificial Intelligence Governance’ de Sabelo Mhlambi, cientista da computação que pesquisa as tecnologias de inteligência artificial sob a perspectiva da filosofia Ubuntu.

E, nas redes, a bola da vez foi a GPT-3, tido como o mais avançado modelo de geração de linguagens já inventado pela humanidade. Com 10 mil vezes mais parâmetros do que seu predecessor, o modelo da OpenAI surpreendeu pela capacidade de produzir discursos indistinguíveis daqueles feitos por humanos e realizar outras tarefas, tais como produzir códigos de programação e layout simples.

O impacto no trabalho com dados não serão poucos. Já sabemos que a GPT-3 consegue “traduzir” perguntas em consultas a bancos de dados (SQL), criar gráficos simples, entre outros exemplos. Se você quer experimentar na prática, pode entrar na lista de espera para ter acesso à API.

Para entender melhor o assunto, a dica é este vídeo do canal Peixe Babel para uma introdução básica, o post do Analytics Vidhya para mais detalhes técnicos e, se você quiser ir fundo, o próprio o paper publicado pelos desenvolvedores.


Desertos de dados

Às vezes, os dados não existem e é preciso criá-los “na raça”. Reunindo experiências que coletam dados inéditos, o Centro de Estudos de Segurança e Cidadania fez o debate ‘Como transformar a realidade em dados‘, onde foram apresentadas iniciativas da sociedade civil para produção de dados, como o Fogo Cruzado, Painel Covid nas Favelas e o Programa Argos de Monitoramento Comunitário da Criminalidade.

E a Algorithm Watch publicou um interessante estudo sobre pesquisas baseadas em dados de redes sociais. Após analisar trabalhos sobre mais de 15 plataformas, o trabalho aponta que o fato de poucas plataformas (YouTube, Twitter e Facebook) disponibilizarem dados com fácil acesso produz um viés nas análises conhecido como “streetlight effect”, ou seja, quando as pessoas buscam apenas onde é mais fácil encontrar aquilo que querem.

Enquanto isso… o Twitter apresentou uma nova e aprimorada API. E o site OSINT Curious comparou a nova e velha interface do Facebook para buscas e investigações.


Além dos dados 

Políticas puramente baseadas em evidência não existem. Dados precisam de um teoria para serem úteis. Este é o argumento central de um ensaio recém-publicado por Lars Peter Hansen, economista ganhador do Nobel de 2013.

Na mesma linha, o blog da Data Visualization Society falou sobre como publicadores de dados podem ir além da mera disponibilização de informações. A partir de um estudo de caso, o autor enfatiza a importância de uma narrativa nos portais de dados abertos.


LGPD e DataJud

Após a decisão do Senado, que derrubou a prorrogação do prazo para início da vigência da Lei Geral de Proteção de Dados (LGPD), tudo indica que este marco legal enfim entrará em vigor em setembro. De acordo com o InfoMoney, a maioria das empresas ainda não está preparada para as exigências da legislação. As penalidades para quem fugir às regras serão aplicadas a partir de agosto do ano que vem. Os impactos da LGPD no setor público é um dos temas do nosso curso Publicadores de Dados.

Outra novidade importante em agosto foi a resolução 331 do Conselho Nacional de Justiça, que criou a Base Nacional de Dados do Poder Judiciário, o DataJud. A expectativa é que esta seja uma das mais importantes fontes primárias de dados de estatísticas da Justiça brasileira.

SAIBA MAIS

Para aprender mais e aprender sempre

Aprendizados de fôlego

Agosto foi um mês de intensas (e qualificadas) produções para quem está interessado em aprofundar conhecimentos no trabalho com dados. Começamos destacando o curso completo sobre métodos quantitativos para as ciências sociais da Universidade de Harvard, ministrado por Gary King, que agora encontra-se online na íntegra.

Tem também o curso ‘Pratical Data Ethics’, que trata de temas como desinformação, vieses, privacidade e colonialismo algorítmico. Outro excelente material é o curso da Spatial Thoughts sobre dados geoespaciais, QGIS e Python.

Se preferir a leitura, pode conferir o livro recém-publicado Learning Statistics with R. E, em português, foi lançado de forma aberta o curso sobre uso de Lei de Acesso à Informação em municípios brasileiros, realizado pelo Painel Jornalismo.

***

Vapt-vupt

Tem também opções mais rápidas e pontuais, como a transmissão ao vivo do Curso-R que tratou sobre raspagem de dados. Ou a aula do canal vcubingx sobre visualização de redes neurais.

Tem até série do Netflix, que tal? Lançada este mês, a ‘A Era dos Dados’ (Connected: The Hidden Science of Everything) apresenta de forma descontraída assuntos como a Lei de Benford, que também foi tema de um tutorial no R Bloggers.

***

6 projetos de código-aberto da ciência de dados do futuro

O já citado blog Analytics Vidhya destacou 6 projetos de código aberto importantes para o futuro da ciências de dados: o Transcoder, uma ferramenta do Facebook para “traduzir” códigos de uma linguagem para outra; o Complex YOLOv4 para detecção de objetos em tempo real; MMDetection3D, que faz o mesmo para objetos 3D e é baseado no PyTorch; DeText, um framework do LinkedIn para tarefas de classificação e ranqueamento de texto; CML, focado em integração contínua para aprendizado de máquina; e, por fim, o Sktime, do Alan Turing Institute, para análise de séries temporais com Python.

SNIPPETS

Dicas curtas e certeiras sobre o trabalho com dados

Google anunciou o lançamento de um novo painel com dados globais sobre a Covid-19 voltado a jornalistas. Confira o mapa e o painel interativo.

Os gráficos gerados no painel do Google são atualizados em tempo real e podem ser incorporados em outros sites. Fonte: COVID-19 Global Case Mapper.

***

We R Live: o canal Geocast Brasil realiza uma série de transmissões ao vivo sobre o uso de R para lidar com dados geográficos.

***

A NASA publicou uma nova ferramenta para monitoramento de dados ambientais da Amazônia. Confira o painel interativo e o post introdutório do Earth Observatory.

***

Por falar nisso, o Towards Data Science também mostrou como utilizar satélites de acesso aberto em investigações.

***

O podcast Pizza de Dados recebeu Gabriela de Queiroz, cientista da IBM e fundadora da R-Ladies para um bate-papo sobre estatística, R e inteligência artificial.

***

O blog Towards Data Science deu dicas de como otimizar as etapas de limpeza e pré-processamento de dados usando a biblioteca klib em Python.

***

Painel TIC COVID-19 trouxe dados sobre o comportamento online da população brasileira durante a pandemia.

***

Todos os vídeos do Simpósio Internacional de Jornalismo Online deste ano (ISOJ 2020) já estão disponíveis no YouTube.

***

Novas bases: Luis Moneda disponibilizou um banco de dados no Kaggle com textos de notícias do futebol brasileiro publicados no Globo Esporte.

***

Thiago Marzagão compartilhou a série histórica do Ibovespa, de 1968 até junho de 2020. Para as análises, tenha atenção às mudanças metodológicas.

INSPIRA

Trabalhos e iniciativas inovadoras para te inspirar 

Nesta edição, vamos destacar não um, mas dois trabalhos. Eles trazem dicas de metodologias e abordagens que podem te inspirar nos seus próximos trabalhos com dados.

A primeira referência é o post feito pelo Pudding contando sobre os bastidores do processo de elaboração de uma pauta no veículo, que é referência mundial em jornalismo de dados. Nele, Amber Thomas detalha tanto as questões que levam uma ideia à publicação, como também aquelas que a levam a ser deixada de lado.

Já o professor Paul Bradshaw publicou um texto explicando de forma didática 7 abordagens comuns para reportagens envolvendo dados. Na primeira postagem, ele aborda as operações envolvendo escala, mudança, ranqueamento e variação. Na segunda parte, trata de exploração, relacionamentos e problemas como a ausência de dados.

APT UPDATE

Atualize-se com as novidades de softwares para trabalhar com dados

Além de notebooks, o Jupyter também pode produzir publicações e livros com o novo Jupyter Books.

***

A famosa biblioteca JavaScript para visualização de dados, o d3, chegou na versão 6.0.

***

Data Zoom publicou uma biblioteca em R para facilitar a leitura dos microdados da Pesquisa Nacional por Amostra de Domicílios (PNAD) relacionadas à Covid-19.

***

O pesquisador e artista Jarbas Jacome publicou o código do TextoTecidoPalavras, um script em Processing para visualização de dados em texto de forma interativa.

***

Para quem precisa de alta performance e lida com volumes grandes de dados: o Apache Arrow chegou à versão 1.0.0.

***

O plugin Datasette, que fornece uma API automática em GraphQL para bases SQLite, também alcançou a versão 1.0.

***

Um ponto zero: o mesmo vale para o plumber, biblioteca em R para construção de APIs.

***

Flourish anunciou que agora suporta filtros em gráficos de barra, linha e pizza.


Ficou algo de fora? Envie sugestões e dicas para [email protected]

Posts relacionados

Deixe um comentário

Esse site utiliza o Akismet para reduzir spam. Aprenda como seus dados de comentários são processados.