Ferramentas para mitigar vieses em IA

Atividade exclusiva para pessoas inscritas no Coda.Br 2021.

Inscreva-se já OU faça login

SOBRE O WORKSHOP

A ideia de que os dados são elementos exatos e inquestionáveis vem gradualmente ganhando força em toda a sociedade. Casos como o do algoritmo de corte de imagem do Twitter, que favorecia a exibição de rostos de pessoas brancas em relação a pessoas negras, têm evidenciado que, assim como os seres humanos que os publicam, coletam e analisam, os dados também possuem vieses.

Esses vieses podem, por muitas vezes, acabar reproduzindo ou acentuando preconceitos já muito conhecidos na sociedade, como o racismo e o machismo. No workshop, a cientista-chefe de dados da IBM Califórnia, Gabriela de Queiroz, cita três razões bem comuns para a existência de vieses nos dados: discriminação histórica, pouca informação sobre minorias e pouca anotação dos dados. Esses vieses, por sua vez, provocam a discriminação no processo de Machine Learning (ML).

Para endereçar esse problema, Queiroz e a engenheira de computação Paolla Magalhães apresentaram o AI Fairness 360 (AIF 360), um kit de ferramentas de código aberto criado para se examinar, relatar e mitigar a discriminação e o preconceito em modelos de ML. As palestrantes conduziram um passo a passo ao vivo de como explorar uma base de dados, avaliar os vieses contidos na mesma e enfim mitigá-los.

Mas antes, elas introduziram alguns conceitos-chave para navegar por esse processo. Explicaram as principais terminologias do AIF 360: favorable label, protected attribute, valor privilegiado e discriminação/viés desejado. Responderam a perguntas pertinentes a definição do problema: 1) Como decidir o atributo sensível? 2) Como decidir as classes privilegiadas e não privilegiadas? 3) Como definir o resultado favorável? E explicaram o funcionamento da quantificação de justiça, que ocorre por meio da utilização de probabilidades ou métricas retiradas da chamada matriz de confusão. Ainda sobre esse processo, Queiroz e Magalhães introduziram expressões matemáticas para a igualdade de oportunidade, paridade estatística e paridade preditiva.

As palestrantes também definiram as métricas tanto de performance quanto de justiça, para a avaliação de justiça. Sendo as de performance accuracy, precision, recall e F1; e as de justiça, relação de impacto desigual, diferença de paridade estatística, diferença de média de probabilidade e diferença de igualdade de oportunidade.

Como demonstrado por Magalhães no código executado durante o workshop, também foram abordadas as técnicas de mitigação de viés, que podem ocorrer nas três classes de algoritmos, que correspondem ao pré-processamento, em processamento e pós-processamento. Tanto o código quanto o conjunto de dados utilizado para a parte prática da atividade estão com acesso liberado.

NÍVEL

Intermediário.

DURAÇÃO

1:30h

Referências da atividade

Gabriela de Queiroz

Gabriela de Queiroz

É cientista-chefe de dados da IBM Califórnia, líder em estratégia e inovação em IA. Ela impulsiona a adoção de IA entre clientes existentes e potenciais, lidera a estratégia de alcance em nosso ecossistema de código aberto e comunidade de ciência de dados. Anteriormente, ela foi Diretora de Programa trabalhando em Open Source, Data & AI Technologies na IBM.

paollamagalhaes

Paolla Magalhães

Engenheira da Computação, atua como Cientista de Dados aplicando Processamento de Linguagem Natural (PNL) em problemas da Indústria de Alimentos. Além disso, cursa  Mestrado em Ciência da Computação na Universidade Federal de Minas Gerais (UFMG) com pesquisa em Aprendizado de Máquina para PNL na linguagem PT-BR.

REALIZAÇÃO

DESENVOLVIDO COM

APOIO

APOIO DE MÍDIA

Visite os sites das edições anteriores: 2016201720182019 e 2020