#36 Dados sintéticos, imagens feitas por IA e a imprensa em xeque

Junho/2022

AGENDA

Oportunidades e prazos para não perder de vista



01/07 – Prazo para envio de atividades para a Python Brasil, em Manaus.

04/07 – Data limite para se inscrever na ‘Summer School 22’ do Tactical Tech Collective, que aborda a indústria da influência nas redes.

05/07 – Último dia para pesquisadores se candidatarem à vaga de Senior Fellow em Tech Policy na Mozilla, que traz uma atenção especial a uma perspectiva interseccional.

05/07 a 07/07 – Acontece o Seminário ‘Usando Big Data e Machine Learning para mapeamento de cobertura do solo’, organizado pelo IBGE e outras organizações.

10/07 – Último dia para se inscrever no curso ‘No Alvo: Política de Armas e Munições’, organizado pela Escola de Dados e Fogo Cruzado.

10/07 – Prazo para chamada de palestrantes na Git Merge 2022.

11/07 a 17/07 – Acontece a Scientific Computing with Python (SciPyConf) 2022.

12/07 – Encerramento das inscrições para o curso ‘R para Ciência e Dados’.

12 a 13/07 – 2ª Computer, Privacy and Data Protection Conference (CPDP) LatAm 2022 com o tema ‘Artificial Intelligence and Data Protection in Latin America’.

15/07 – Aula magna do master em Jornalismo de Dados, Automação e Data Storytelling, promovido pelo Insper.

19/07 – “A Pública em dados e o ‘Mapa dos Conflitos “: webinar de nosso programa de membresia.

19 a 28/07 – Transform 2022, evento voltado para Inteligência Artificial nos negócios e na tecnologia, organizado pela VentureBeat.

26/07 –  Data limite para envio de propostas para nossa conferência de jornalismo de dados, o Coda.Br, edição 2022.

27 e 28/07 – Primeira edição regional de nossa conferência de jornalismo de dados, o Coda Amazônia ocorre em Belém, no Pará.

31/07 – Prazo final da chamada de manuscritos para o dossiê “O papel dos algoritmos e das plataformas digitais em contextos sociopolíticos”, do IBICT.

03 a 07/08 –  17º Congresso Internacional de Jornalismo Investigativo da Abraji, em formato híbrido.

11/08 – O Cerveja com Dados volta a São Paulo, em sua primeira edição pós-pandemia.

12/08 – E, no dia seguinte, é a vez de Recife receber mais um encontro do Cerveja com Dados.

15/08 – Prazo de submissão de trabalhos na área de matemática para The Summer of Math Exposition, com prêmio de $1.000.

17 a 18/0813º Seminário de Proteção à Privacidade e aos Dados Pessoais em São Paulo.

26 a 28/08Python Nordeste em Aracaju.

29/08 – Inicia o nosso curso Python para Inovação Cívica. As inscrições estão abertas.

01/09 – Começa o nosso curso Publicadores: gerenciando dados abertos com o  CKAN. As inscrições seguem abertas. 

31/08 – Data limite para participar de cursos gratuitos sobre Inteligência Artificial e automação de redações, oferecidos pela Associated Press.

31/08 – Último dia para solicitar fundos para projetos que visam reduzir o desmatamento, oferecidos pela Global Forest Watch.

14/09 a 15/09Git Merge 2022.

15/10 – Prazo para se inscrever no Fellowship for Prospective Leaders, com bolsas de até € 2.600 mensais, organizado pelo German Chancellor Fellowship.

 

NO MUNDO DOS DADOS

Notícias e discussões quentes


Vem aí: dados sintéticos em modelos de IA

De acordo com a empresa de consultoria e pesquisa tecnológica Gartner, os “dados sintéticos” são uma das grandes tendências futuras para a ciência de dados. O grupo espera inclusive que, até 2030, este tipo de dados ofusque completamente os “dados reais” em modelos de inteligência artificial.

Dados sintéticos imitam propriedades estatísticas e características de “dados reais” (aqueles que são obtidos por meio da observação direta de fenômenos no mundo). Em entrevista, Alexander Linden, vice-presidente de pesquisa da empresa, destaca que tais dados “podem ser usados para hackathons, demonstrações de produtos e prototipagem interna para replicar um conjunto de dados com os atributos estatísticos corretos”. Por outro lado, ele destaca também alguns riscos dos dados sintéticos, cuja qualidade está diretamente ligada às características dos dados originais que foram usados para sua criação.

No LinkedIn, a especialista em privacidade Katharina Koerner também abordou o tema. Ela listou artigos sobre este tema e empresas que oferecem serviços do tipo.


 

Já era? Dados sem fronteiras internacionais

O jornalista David McCabe relatou um movimento internacional envolvendo dezenas de países para aumentar o controle sobre as informações digitais produzidas por seus cidadãos, governos e empresas, em busca de uma “soberania digital”. A ideia central é que os dados sejam armazenados  “dentro do país de origem, ou pelo menos tratado de acordo com a privacidade e outros padrões estabelecidos por um governo”.

Para informações mais confidenciais, “algumas autoridades querem que [as informações] também sejam controladas por uma empresa local”, completa McCabe. O texto foi publicado em português na Folha de São Paulo.


 

Computação visual e modelos de inteligência artificial

Na última edição de nosso Boletim, compartilhamos alguns resultados do DALL-E 2, uma IA criada para gerar imagens a partir de textos. As tecnologias do tipo seguem dando o que falar e devem ganhar cada vez mais espaço na Internet no futuro.

Para usar o DALL-E 2, é preciso se inscrever e ser aprovado pela equipe da OpenAI. Mas outros desenvolvedores disponibilizaram soluções de código-aberto, como o Craiyon, anteriormente conhecido como DALL-E mini. Para saber mais sobre este modelo, vale conferir o post publicado no site Weights & Biases.

Estas tecnologias, que começaram visando textos a partir de imagens (para legendar materiais visuais, por exemplo), agora já podem criar resultados impressionantes fazendo o caminho oposto: gerando imagens a partir de textos. Em vídeo didático sobre o tema, o Vox mostra este desenvolvimento, desde os primeiros passos com pesquisas em 2016, até os impasses atuais envolvendo este tipo de inteligência artificial. 

Imagem criada com o DALL-E a partir do texto “A favela in the future, photorealistic”


 

Imprensa em xeque

O Reuters Institute disponibilizou seu relatório de 2022 sobre notícias digitais. Neste ano, as principais descobertas da pesquisa foram a queda na confiança e no interesse em veículos de imprensa. Mais que isso: o número de pessoas que dizem evitar notícias cresceu e, no caso do Brasil e Inglaterra, dobrou nos últimos 5 anos.

Além disso, a pesquisa mostra que o smartphone se tornou a principal forma pela qual a maioria das pessoas têm seu primeiro contato com notícias pela manhã. Para quem trabalha com visualizações de dados, esse fato não deve ser menosprezado. Planeje suas visualizações de dados pensando em como elas serão exibidas em telas pequenas.


Reconhecimento facial

Diante da mobilização em prol do banimento das tecnologias de reconhecimento facial, a Microsoft decidiu remover a utilização dessa tecnologia em seus serviços de inteligência artificial, para novos usuários e, dentro de um ano, para usuários antigos, a fim de garantir que não haja impactos prejudiciais na sociedade. De acordo com reportagem do The New York Times, desenvolvedores que precisarem utilizar tais tecnologias, deverão pedir autorização e explicar como serão implementadas.

No Brasil, diversos pesquisadores, parlamentares e ativistas demandam que governos não empreguem tecnologias de reconhecimento facial em espaços públicos, por conta de seus efeitos discriminatórios, especialmente em áreas como segurança pública. Campanhas como ‘#TireMeuRostodaSuaMira’, ‘Saia da minha cara’ e ‘Sem câmera na minha cara’ são alguns dos exemplos destas mobilizações.

SAIBA MAIS

Para aprender mais e aprender sempre


Algoritmos essenciais para aprendizagem de máquina

Com apresentação de Andrew Ng, que recentemente atualizou seu famoso curso no Coursera sobre o tema, o site The Batch apresentou um panorama de seis algoritmos essenciais de aprendizagem de máquina. De forma acessível, são explicadas as principais ideias que embasam as seguintes técnicas: regressão linear e logística, gradiente descendente, redes neurais, árvores de decisão e agrupamentos k-means.


 

Materiais e dicas sobre OSINT

O Maltego lançou seu ‘Manual para investigações em mídias sociais’, um guia rápido sobre inteligência com fontes abertas (OSINT) nas redes sociais, utilizando esta ferramenta Maltego. Já Benjamin Strick publicou um tutorial em seu canal no Youtube sobre como encontrar incêndios e focos de fogo usando imagens de satélite e dados geoespaciais. 

E, em agosto, Adriano Belisario – coordenador da Escola de Dados – irá realizar um workshop presencial sobre investigações com técnicas de OSINT, como parte das atividades do Congresso da Abraji, que ocorre em São Paulo.


Novidades do mundo R

Diversas novidades pipocaram na comunidade R recentemente. Para citar alguns destaques, a comunidade RainbowR lançou o TidyRaibow (projeto de dados voltado para a comunidade LGBTQ+), Francisco Urdinez e Andres Cruz lançaram o livro ‘R for Political Data Science – A Practical Guide’ e Rafael Irizarry disponibilizou a publicação ‘Introduction to Data Science – Data Analysis and Prediction Algorithms with R’. Além disso, usuários dessa linguagem podem conferir também tutoriais recentes sobre uso de dados Google Maps ou do OpenStreetMaps, bem como dicas de melhores práticas para criar aplicações usando Docker.


NLP nas redações

Em artigo, Sabrina Argoub abordou os desafios enfrentados por redações e organizações de mídia para trabalhar técnicas de processamento de linguagem natural (NLP), visto que a maior parte das soluções desta área são voltadas para a língua inglesa, apresentando falhas ou lacunas importantes, quando se tratam de outros idiomas. 

Argoub aponta que o investimento em pesquisas e implementações de modelos NLP nos idiomas nativos das redações mundo afora pode desbloquear um enorme potencial. O texto discute empecilhos para isso – como poucos dados disponíveis em outros idiomas que não seja inglês, tempo de implantação e bibliotecas – e possíveis soluções.

SNIPPETS

Dicas curtas e certeiras


Por falar em NLP, o professor Adolfo Guimarães fez um artigo sobre como analisar os dados textuais da CPI da Pandemia.

O 12º Fórum da Internet no Brasil disponibilizou a gravação de toda a programação no Youtube. Destacamos a sessão ‘Regulação das plataformas e compensações à atividade jornalística’.

Abraji e Data Privacy Brasil de Pesquisa lançam o relatório ‘Jornalismo e proteção de dados pessoais: a liberdade de expressão, informação e comunicação como fundamentos da LGPD’.

O jornalista Marcelo Soares está fazendo uma série de vídeos sobre seu projeto ‘Eleição Analítica’.

A Fundação Estudar disponibiliza gratuitamente, com tradução para português, o curso CC50 de Introdução a Ciências da Computação, famoso curso da Universidade de Harvard.

A DAIR.AI organizou um repositório no GitHub com exemplos de notebooks sobre aprendizagem de máquina. 

Abraji e o The Organized Crime and Corruption Reporting Project realizaram live ensinando a utilizar a ferramenta Aleph em investigações jornalísticas. 

O Women in Data Science Rio de Janeiro de 2022 trouxe palestras sobre visualizações de dados, negócios e outros temas que podem ser conferidos no canal do Youtube.

O Data Vizualization Society lançou a 1ª edição impressa da revista ‘Nightingale’, com o objetivo de preservar visualizações de dados offline.

Juliana Coin organizou um tutorial sobre a WikiLAI, plataforma criada pela agência Fiquem Sabendo.  

O podcast Pizza de Dados conversou com a Julia Shimbo do Mapbiomas, sobre como a ciência de dados está ajudando a monitorar a cobertura e uso da terra.

O CKAN caminha para o lançamento da versão 3.0 e procura por pessoas que queiram compartilhar ideias sobre o futuro da plataforma.

DigiLabour lançou um mapa de cooperativas de comunicadores e toolkit sobre cooperativismo de plataforma na área de comunicação.

A nova edição da revista Dados traz artigos acadêmicos abordando temas como mobilidade social e fidelidade partidária

Oportunidades: a Agência Tatu de Jornalismo de Dados busca colaboradores de todo o Brasil para produzir reportagens com dados e o Centro de Integração de Dados e Conhecimentos para Saúde tem vagas abertas em engenharia de dados.

Lançamos em nosso site um tutorial sobre Storytelling utilizando Flourish, escolhido esse mês pelos participantes do Programa de Membresia.

INSPIRA

Trabalhos e iniciativas inovadoras para te inspirar


A visualização interativa Bruxelles Malade (Bruxelas doente, em tradução livre) traz dados sobre a capital belga, cuja flagrante desigualdade social também se reflete na desigualdade no acesso à saúde na cidade. A dica sobre o trabalho veio de Fernando Barbalho, no grupo do programa de membresia da Escola de Dados, no Telegram.

No site, somos apresentados a uma visualização sobre a precariedade dos bairros, calculada por meio de uma taxa que leva em consideração a concentração geográfica de pessoas que são beneficiárias de reembolsos mais elevados do seguro de saúde, por terem baixa renda ou condições pessoais específicas (invalidez, famílias monoparentais, etc). Mesclando gráficos e texto com uma narrativa fluida, o trabalho mostra como as desigualdades de renda, idade, moradia, origem e poluição têm consequências diretas na saúde.

NOVOS DADOS

Conjuntos de dados e plataformas publicados recentemente


Rain Forest Network e Earth Media lançaram a plataforma Amazon Mining Watch que detecta indícios de mineração na Amazônia, a partir de imagens de satélite.

O CNPq em parceria com outras instituições lançou o LattesData, um repositório de dados de pesquisa.

Prefeitura do Rio de Janeiro criou um datalake para reunir informações de todas as secretarias, autarquias e empresas municipais.

Nova versão do Infosambas traz dados ampliados e atualizados, seção para artigos e publicações de outras instituições que tratam do tema.

Novo painel da Sala de Situação da Amazônia agrega dados de focos de fogo em vegetação, melhorias na ferramenta de observação, entre outros.

Dynamic World disponibiliza dados de cobertura da terra quase em tempo real.

UPDATE

Atualize-se com as novidades de softwares e bases de dados


A Content Authenticity Initiative criou um conjunto de ferramentas de código aberto para trabalhar com metadados e autenticação de conteúdos digitais. 

A Amazon lançou o CodeWhisperer, uma ferramenta para automatizar o desenvolvimento de códigos semelhante ao GitHub Copilot. A versão prévia está disponível no AWS IDE Toolkit.

As atualizações recentes do Visual Studio Code trazem melhorias na tradução da interface, suporte à extensão Jupyter na web, entre outras novidades.

O Google disponibilizou uma nova funcionalidade no BigQuery, que traduz as sintaxes de linguagens SQL. 

Lançado o vetiver, um framework para tarefas MLOps em R e Python.

O Git 2.37 traz novos mecanismos para remoção de objetos, um monitor de sistema de arquivos integrado para Windows e macOS, e muito mais.

Spatialsample 0.2.0, pacote R sobre validação cruzada com dados espaciais, chegou ao CRAN.

Ainda em R: o pacote landscapmetrics é capaz de calcular métricas de paisagens de forma interativa e o rig 0.5.0 apresentou melhorias no gerenciamento de versões e bibliotecas.


Sugestões? Envie um e-mail para [email protected].

Posts relacionados

Deixe um comentário

Esse site utiliza o Akismet para reduzir spam. Aprenda como seus dados de comentários são processados.