Compartilhar
Incorporar

Calculadora do Coeficiente de Correlação de Matthews

Criado por: Neo
Revisado por: Ming
Última atualização: 2025-06-18 14:24:26
Total de vezes calculadas: 686
Etiqueta:

O Coeficiente de Correlação de Matthews (MCC) é uma métrica crítica usada em tarefas de classificação binária, especialmente em bioinformática e aprendizado de máquina. Este guia fornece uma compreensão aprofundada do MCC, sua fórmula, exemplos práticos, FAQs e fatos interessantes.


Compreendendo o Coeficiente de Correlação de Matthews

Conhecimento Básico

O MCC mede a qualidade das classificações binárias, considerando todos os quatro resultados: verdadeiros positivos (TP), verdadeiros negativos (TN), falsos positivos (FP) e falsos negativos (FN). É particularmente útil quando se lida com conjuntos de dados desequilibrados, porque equilibra as contribuições de todas as classes.

Principais benefícios:

  • Medida equilibrada: Adequado para conjuntos de dados com tamanhos de classe desiguais.
  • Interpretação da faixa:
    • +1: Predição perfeita.
    • 0: Predição aleatória.
    • -1: Discordância total.

Em campos como a bioinformática, o MCC ajuda a avaliar o desempenho de modelos de classificação, como aqueles que preveem estruturas de proteínas ou funções de genes.


A Fórmula do MCC: Avaliação Precisa de Modelos de Classificação

A fórmula do MCC é:

\[ MCC = \frac{(TP \cdot TN) - (FP \cdot FN)}{\sqrt{(TP + FP) \cdot (TP + FN) \cdot (TN + FP) \cdot (TN + FN)}} \]

Onde:

  • \( TP \): Verdadeiros Positivos
  • \( TN \): Verdadeiros Negativos
  • \( FP \): Falsos Positivos
  • \( FN \): Falsos Negativos

Esta fórmula garante que todos os resultados contribuam igualmente para a pontuação final, tornando-a robusta contra o desequilíbrio de classes.


Exemplo Prático: Calculando o MCC

Problema de Exemplo

Suponha que você tenha os seguintes valores:

  • Verdadeiros Positivos (TP) = 50
  • Verdadeiros Negativos (TN) = 40
  • Falsos Positivos (FP) = 10
  • Falsos Negativos (FN) = 5
  1. Cálculo do Numerador: \[ (TP \cdot TN) - (FP \cdot FN) = (50 \cdot 40) - (10 \cdot 5) = 2000 - 50 = 1950 \]

  2. Cálculo do Denominador: \[ \sqrt{(TP + FP) \cdot (TP + FN) \cdot (TN + FP) \cdot (TN + FN)} = \sqrt{(50 + 10) \cdot (50 + 5) \cdot (40 + 10) \cdot (40 + 5)} \] \[ = \sqrt{60 \cdot 55 \cdot 50 \cdot 45} = \sqrt{7425000} \approx 2725.85 \]

  3. Cálculo Final do MCC: \[ MCC = \frac{1950}{2725.85} \approx 0.715 \]

Isto indica um bom desempenho de classificação.


Perguntas Frequentes (FAQs)

Q1: Por que o MCC é melhor que a precisão (accuracy)?

A precisão pode ser enganosa em conjuntos de dados desequilibrados, onde uma classe domina. O MCC leva em conta todos os quatro resultados, fornecendo uma avaliação mais equilibrada.

Q2: O MCC pode ser negativo?

Sim, o MCC varia de -1 a +1. Um valor negativo indica um desempenho ruim, onde as previsões são piores do que um palpite aleatório.

Q3: Quando devo usar o MCC?

Use o MCC ao avaliar modelos de classificação binária, especialmente em casos com desequilíbrio de classe significativo.


Glossário de Termos

  • Classificação Binária: Uma tarefa em que as entradas são classificadas em duas categorias.
  • Verdadeiros Positivos (TP): Instâncias positivas previstas corretamente.
  • Verdadeiros Negativos (TN): Instâncias negativas previstas corretamente.
  • Falsos Positivos (FP): Instâncias positivas previstas incorretamente.
  • Falsos Negativos (FN): Instâncias negativas previstas incorretamente.

Fatos Interessantes Sobre o MCC

  1. Tratamento de Desequilíbrio: O MCC é amplamente preferido em relação à precisão em conjuntos de dados desequilibrados devido à sua capacidade de lidar efetivamente com distribuições de classe desiguais.
  2. Contexto Histórico: Nomeado em homenagem a Brian W. Matthews, o MCC foi introduzido pela primeira vez no contexto da avaliação de previsões de estrutura secundária de proteínas.
  3. Aplicações no Mundo Real: O MCC é amplamente utilizado em bioinformática, descoberta de fármacos e diagnósticos médicos para avaliar a confiabilidade do modelo.