Falando de novidades Sagemaker Clarify é a feature da AWS que mais me encantou. Modelos de machine learning (ML) por vezes se tornam complexos e com comportamentos difíceis de explicar, outro debate cada vez mais importante é o de vieses em predições. Em resumo Clarify tenta responder 2 perguntas:
- Existe algum viés na predição usando seu modelo de ML em relação a variáveis sensíveis? (Exemplos de variáveis sensíveis: Sexo, Idade, Região etc.)
- Como seu modelo opera? O que é importante para o mesmo?
Vieses em modelos existem, e é importante mensurar eles e estar ciente de seus impactos. Desconsidera-los pode significar perda de cliente potencial ou gerar decisões tendenciosas e erradas.
Saber como o modelo opera pode mitigar vieses, permite integração e compreensão de negócio. A longo prazo as explicações do modelo podem alavancar negócios e projetos, gerar inovação e nortear com dados o crescimento de empresas.
O AWS SageMaker engloba conjunto de serviços para preparação, criação, treino, implementação e monitoramento de modelos de ML. Este conjunto tem-se ampliado nos últimos 2 anos com o objetivo de facilitar a criação de aplicações, mas principalmente com intuito de encantar e melhorar o uso do mesmo pelos diversos perfis de cientistas de dados. O Clarify veio para encantar aqueles mais ligados à estatística.
Cabe destacar o uso do Sagemaker Studio que interliga todas as features em uma IDLE adaptada do JupyterLab, a abertura de trazer seu próprio jeito de programar e construir modelos já começa por aqui. Traga seu código Python, R, Spark e turbine com as features da AWS.
Para exemplificar vamos falar de uma questão muito interessante a diversas empresas e que pode ser resolvida com ML:
Qual a renda do meu cliente? É acima de um determinado valor ? (Acima de R$10 mil mensal? Ele tem poder aquisitivo para adquirir o meu produto?)
Com um público de referência adequado e através de dados cadastrais, localização, dados transacionais e dados públicos, é possível realizar uma modelagem permitirá a predição de qual a renda de um determinado cliente. Então consideremos a questão meu cliente tem renda superior a R$10.000 mensais, Clarify ajuda a responder:
Exemplos (região* será usada como variável sensível):
- Minha amostra de treino possui algum viés em relação a região*? (Cenário típico de empresas com expansão de atendimento territorial.) Métricas de 1 à 8 da tabela abaixo
- Meu modelo tem algum viés em relação a região*? Métricas de 9 à 21 “bias report” gerado com Sagemaker Clarify e visualizado via Sagemaker Studio.Como o modelo funciona? a região, sexo, idade, são importantes? O que é importante? Qual o sentido dessas variáveis sobre a predição?
- Para explicar um modelo de acordo com sua complexidade trata-se de uma tarefa árdua e que exige conhecimento tanto do cientista quanto da área de negócio interessada. Sagemaker Clarify usa o Pacote SHAP e recomenda seu uso mais profundo. O mesmo trata de forma objetiva o impacto que cada variável tem sobre o modelo. É possível gerar o relatório “model insights” que contém os dados a importância das variáveis.
Outro gráfico interessante possível de se visualizar é o “Dot SHAP Values”. Com ele é possível analisar comportamentos mais comuns, e qual o sentido e impacto de cada variável sobre a predição.
Enfim, Sagemaker Clarify como o próprio nome sugere vem para esclarecer ML, em ambientes de inovação que querem se guiar por dados e queiram estar ciente de seus impactos e relações.