Novembro/2023

AGENDA

Oportunidades e prazos para não perder de vista


• 01/12 – Prazo final para as inscrições no programa de microbolsas para Formação de Repórteres Indígenas da Agência Pública.

• 05/12 – Último dia para se inscrever na segunda edição do Programa de Bolsas #Colabora, iniciativa do Projeto Colabora, parceiro da Ajor. 

• 12/12 – Trabalhando com dados espaciais com R, meetup online de R-Ladies São Paulo e R-Ladies Brasília. 

• 13 a 16/12 – Cultural Data Analytics Conference 2023, em Talín, na Estônia. 

• 15/12 – Termina a inscrição para pessoa parceira do MapBiomas a fim de realizar mapeamento de Agricultura, Irrigação e Florestas Plantadas. 

• 01/01 – Data limite para que estudantes submetam visualizações de dados no Iron Viz: Student Edition, da Tableau.

NO MUNDO DOS DADOS

Notícias e discussões quentes


IA SUBSTITUINDO TRABALHOS REMOTOS E CHATGPT5 

Sem muitos detalhes do que será novo nem de quando chegará, foi anunciado na OpenAI’s Developer Conference, o ChatGPT5, além de recursos novos (que também não foram revelados quais) para o já conhecido ChatGPT4. O que se sabe é que espera-se ter recursos mais avançados para as redes neurais.  Enquanto essas informações não se concretizam, a discussão de como (ou quando) a  Inteligência Artificial irá substituir as demandas de trabalho remoto ainda é algo corriqueiro.  A LessWrong convidou 3 especialistas para discutir em quanto tempo eles acham que isso acontecerá em relação a 99% do trabalho remoto. Enquanto Daniel Kokotajlo, da Open AI, estima que será em 4 anos, Ajeya Cotra, da Open Philanthropy, acredita que em 13 anos. Já Ege Erdil da Epoch, pensa que levará muito mais tempo, cerca de 40 anos. A matéria aborda as divergências entre eles a partir do tempo que levará também para se desenvolver uma IA que compreenda, aprenda e execute qualquer tarefa cognitiva que um ser humano possa fazer.

IA DEMOCRÁTICA E CONFIÁVEL

Outra discussão que vem cada vez mais tomando força, junto às questões de vieses e impactos na sociedade (sobretudo as minorias), é a utilização da Inteligência Artificial numa perspectiva democrática. Henry Farrell escrevendo para o portal Programmable Mutter fez uma crítica de como a OpenAI, idealizadora do ChatGPT quer avançar a tecnologia nessa perspectiva, mas o entendimento da IA sobre democracia ainda é limitado, concentrando-se apenas na deliberação e no consenso entre os indivíduos.  O autor argumenta que a democracia não deve ser simplesmente um processo de conselho para corporações poderosas, mas um sistema em que o poder democrático esteja no controle. Este é um problema que persistirá enquanto os direcionamentos tecnológicos ficarem nas mãos de BigTechs. As inclinações de decisões tenderá sempre a apoiar os interesses das mesmas. 

No entanto, já não se pode mais dizer que este é o único caminho. Já existem iniciativas produzindo tecnologias mais confiáveis. “Para mitigar os riscos que o desenvolvimento irresponsável da IA representa para a sociedade, precisamos começar a ouvir mais aqueles que propõem alternativas confiáveis.”, diz Solana Larsen, e aponta ainda o quanto ficamos refém em avançar no debate primeiro pelo medo instaurado da dominação da Inteligência Artificial e segundo pela facilidade voltadas as Big Techs em conseguir discutir e formular regulamentações com autoridades, acesso ainda difícil para algumas iniciativas. A autora mostra ainda bons exemplos de tecnologias criadas nessa perspectiva e afirma “…devemos amplificar perspectivas que nos ajudem a repensar o que a tecnologia pode ser e a quem ela deve servir neste vasto mundo.”

LETRAMENTO DE DADOS E DESINFORMAÇÃO

Diante dos avanços tecnológicos e contínuos problemas que a Inteligência Artificial apresenta, a importância da alfabetização em dados (Data Literacy) passa a ser visto como uma competência fundamental para compreender e utilizar os dados de maneira mais eficaz, especialmente diante das crescentes regulamentações e debates em torno do assunto. Priscila Paolinelli acredita que o momento é propício para tornar a Alfabetização em Dados acessível a todos os membros das organizações. Segundo o Data Literacy Project até 2030, a alfabetização em dados será uma das competências mais procuradas pelas empresas. Se nitidamente vemos que as organizações ainda possuem essa barreira para avançar no entendimento da tecnologia que envolve dados, o que pensar sobre a sociedade como um todo? 

Desde agosto, a Google passou a entregar respostas geradas por inteligência artificial no seu buscador, para quem ativa a opção de teste. O texto aparece em um lugar de destaque, antes de qualquer link de portais de notícias. Um dos grande problemas neste caso é que além de invisibilizar os veículos que apuraram a notícia, existem diversos exemplos onde a qualidade de respostas da IA em pesquisas não foram totalmente verídicas. Especialistas e representantes de veículos de notícias ouvidos pela Folha de S.Paulo afirmam que isto “pode contribuir para o ruído no debate público e aumentar a desinformação”. Embora esteja em fases de testes até maio 2024, já imaginou o impacto que pode acontecer até lá relacionado às eleições? E a preocupação com desinformação se estende pelo mundo todo. Este mês, 16 organizações publicaram a Carta de Paris sobre IA e Jornalismo. Tendo em vista as perturbações causadas pela IA no espaço da informação, a Carta estabelece dez princípios essenciais para garantir a integridade da informação e preservar a função social do jornalismo. 

CODA.BR 23

A 8ª edição da Conferência Brasileira de Jornalismo de Dados e Métodos Digitais (Coda.Br) em São Paulo, realizada nos últimos dias 18 e 19 de novembro, também fomentou debates sobre o funcionamento de modelos LLMs, suas aplicações no jornalismo, além de outros temas como o uso de dados nas coberturas sobre direitos humanos e mudanças climáticas.  Foram 36 atividades na programação, entre painéis e workshops mão na massa, conduzidos por 52 pessoas palestrantes, sendo 6 delas convidadas internacionais.

Esta edição também comemorou os 10 anos de atuação da Open Knowledge Brasil, com uma exposição que mostrou os principais marcos na história da organização em uma linha do tempo. Já a entrega do Prêmio Cláudio Weber Abramo de Jornalismo de Dados encerrou o evento. A cerimônia homenageou os trabalhos de excelência guiados por dados no Brasil, além dos jornalistas Philip Meyer e Schirlei Alves.

Para consultar todos os trabalhos inscritos, finalistas e vencedores desta edição, basta acessar o site do prêmio. Em breve você também poderá assistir à cerimônia, bem como os painéis e keynote realizados no Coda. No site do Coda.Br também ficará disponível todos os materiais trabalhados nas oficinas, além de uma breve documentação dos conteúdos abordados nas atividades. Acompanhe!

SAIBA MAIS

Para aprender mais e aprender sempre


Prêmio CWA e o jornalismo de dados

Giulia Reis Vinciprova e Marcelo Träsel, a partir do 21º Encontro Nacional de Pesquisadores em Jornalismo, lançam o documento Jornalismo guiado por dados no Brasil: uma análise de conteúdo dos projetos finalistas do Prêmio Cláudio Weber Abramo. Na obra, é feita uma análise do conjunto de trabalhos apresentados ao Prêmio entre 2019 e 2022, de modo a explorar o jornalismo de dados e as bases de informações.

Algoritmos em uma linguagem para todas as pessoas

Nina da Hora, em parceria com a editora “Edições 70”, publica o livro MyNews Explica! Algoritmos.  Segundo a autora, é um convite para as mentes curiosas, não apenas uma explicação técnica do assunto. Da Hora se propõe a explicar como algoritmos têm influenciado nossas decisões cotidianas e, em maior grau, nossas vidas de maneira tão frequente. O objetivo é decodificar os famigerados algoritmos para todas as pessoas, independentemente de sua familiaridade com o tema. 

Linguagem SQL aplicada a NLP

Mariya Mansurova, apresenta a LMQL (Language Model Query Language), uma maneira de utilizar SQL em Modelos de Linguagem, que pode servir como uma ferramenta alternativa em aplicações de NLP.

SNIPPETS

Dicas curtas e certeiras


cyb_detective explica oito métodos para automatizar a coleta de informações de sites de grandes companhias; 

Mike Huls explica em detalhes como o que há por trás da criação de objetos em Python; 

Benjamin Thürer discorre sobre a importância dos dados de pré-treinamento para o bom desenvolvimento do modelo de IA.

Utilizando dados geolocalizados e tendo como o inspiração o artigo Pigeons are still (sometimes) faster than your internet, Rose Mintzer-Sweeney cria uma visualização para explicar transferência de dados na Europa. 

Vanessa Fillis, Mafe Callejón e Simone Tselova apontam cinco ciladas a serem evitadas quando se trabalha com cores na visualização de dados.

Fernanda Santos lança “Manual completo do Pandas – Guia prático para análise de dados em Python” de forma gratuita.

Adalberto Junior disponibiliza um modelo pré-treinado em Processamento de Linguagem Natural, o BART, em português brasileiro. 

Base dos Dados libera os dados detalhados e tratados acerca de votações da Câmara dos Deputados desde 1935.

INSPIRA

Trabalhos e iniciativas inovadoras para te inspirar


Todas as munições de uma mesma categoria são iguais? A resposta do New York Times na matéria Army Ammunition Plant Is Tied to Mass Shootings Across the U.S. é não. A matéria se propõe a apontar de onde vem as munições que estão em cenas de crime. Embora o local onde as munições são fabricadas seja idealmente criado para fornecer o exército, a venda de maneira comercial tem crescido com pouca responsabilidade pública.

Na visualização, os autores explicam a anatomia externa da bala, sua identificação de fabricação e comparativos do uso militar com o uso em cenas de crime. Na matéria completa é possível ainda ver muitos mais detalhes do impacto que causou a decisão de comercializar munições devido a baixa demanda militar.

NOVOS DADOS

Conjunto de dados e plataformas publicados recentemente


Agência Lupa lança a LupaMundi, um mapa interativo que contém dados sobre a legislação de diversos países acerca da temática da desinformação. 

NIC.BR e CGI.BR lançam a plataforma de Catálogo Online de Reúso de Dados Abertos, o  CORDATA, um conjunto de (meta)dados a respeito de projetos, estudos, publicações, aplicativos e outros produtos que utilizam ou utilizaram dados disponibilizados na Web de maneira aberta.

A Base dos Dados publicou os Microdados de Despesas de Entes Subnacionais, o  MiDES, do período de 2003 a 2023 de execução orçamentária coletadas com os Tribunais de Contas Estaduais do Brasil. 

A AzMina lançou a plataforma Aborto Brasil, reunindo dados sobre o assunto dados e informações sobre aborto no Brasil de maneira simples, didática e constantemente atualizada.

A Cajueira lançou a plataforma Rede Cajueira, plataforma que reúne banco de fontes, banco de jornalistas do Nordeste e um repositório de notícias de veículos independentes que atuam na região.

MapBiomas publica mapeamento inédito sobre a vegetação nativa do Brasil no período de 2022 e lança plataforma com 38 anos de mudança na cobertura e uso da terra na Colômbia.

UPDATE

Atualize-se com as novidades de softwares e bases de dados


LibreOffice 7.6.3 já está disponível e traz de volta a versão aplicativo para Android.  

Hunchly  2.4.2 permite anexar múltiplos arquivos no Dashboard, melhorias na pesquisa, mensagens de erros amigáveis e mais.

TensorFlow 2.15 chega com métodos de instalação mais simples no Linux, otimização de desempenho da CPU no Windows e mais. TensoFlow Hub está migrando para os modelos do Kaggle

Git 2.43 dentre os principais destaques, apresenta suporte para múltiplos pacotes e re-filtragem de repositórios.