Calculadora do Coeficiente de Correlação de Matthews
O Coeficiente de Correlação de Matthews (MCC) é uma métrica crítica usada em tarefas de classificação binária, especialmente em bioinformática e aprendizado de máquina. Este guia fornece uma compreensão aprofundada do MCC, sua fórmula, exemplos práticos, FAQs e fatos interessantes.
Compreendendo o Coeficiente de Correlação de Matthews
Conhecimento Básico
O MCC mede a qualidade das classificações binárias, considerando todos os quatro resultados: verdadeiros positivos (TP), verdadeiros negativos (TN), falsos positivos (FP) e falsos negativos (FN). É particularmente útil quando se lida com conjuntos de dados desequilibrados, porque equilibra as contribuições de todas as classes.
Principais benefícios:
- Medida equilibrada: Adequado para conjuntos de dados com tamanhos de classe desiguais.
- Interpretação da faixa:
- +1: Predição perfeita.
- 0: Predição aleatória.
- -1: Discordância total.
Em campos como a bioinformática, o MCC ajuda a avaliar o desempenho de modelos de classificação, como aqueles que preveem estruturas de proteínas ou funções de genes.
A Fórmula do MCC: Avaliação Precisa de Modelos de Classificação
A fórmula do MCC é:
\[ MCC = \frac{(TP \cdot TN) - (FP \cdot FN)}{\sqrt{(TP + FP) \cdot (TP + FN) \cdot (TN + FP) \cdot (TN + FN)}} \]
Onde:
- \( TP \): Verdadeiros Positivos
- \( TN \): Verdadeiros Negativos
- \( FP \): Falsos Positivos
- \( FN \): Falsos Negativos
Esta fórmula garante que todos os resultados contribuam igualmente para a pontuação final, tornando-a robusta contra o desequilíbrio de classes.
Exemplo Prático: Calculando o MCC
Problema de Exemplo
Suponha que você tenha os seguintes valores:
- Verdadeiros Positivos (TP) = 50
- Verdadeiros Negativos (TN) = 40
- Falsos Positivos (FP) = 10
- Falsos Negativos (FN) = 5
-
Cálculo do Numerador: \[ (TP \cdot TN) - (FP \cdot FN) = (50 \cdot 40) - (10 \cdot 5) = 2000 - 50 = 1950 \]
-
Cálculo do Denominador: \[ \sqrt{(TP + FP) \cdot (TP + FN) \cdot (TN + FP) \cdot (TN + FN)} = \sqrt{(50 + 10) \cdot (50 + 5) \cdot (40 + 10) \cdot (40 + 5)} \] \[ = \sqrt{60 \cdot 55 \cdot 50 \cdot 45} = \sqrt{7425000} \approx 2725.85 \]
-
Cálculo Final do MCC: \[ MCC = \frac{1950}{2725.85} \approx 0.715 \]
Isto indica um bom desempenho de classificação.
Perguntas Frequentes (FAQs)
Q1: Por que o MCC é melhor que a precisão (accuracy)?
A precisão pode ser enganosa em conjuntos de dados desequilibrados, onde uma classe domina. O MCC leva em conta todos os quatro resultados, fornecendo uma avaliação mais equilibrada.
Q2: O MCC pode ser negativo?
Sim, o MCC varia de -1 a +1. Um valor negativo indica um desempenho ruim, onde as previsões são piores do que um palpite aleatório.
Q3: Quando devo usar o MCC?
Use o MCC ao avaliar modelos de classificação binária, especialmente em casos com desequilíbrio de classe significativo.
Glossário de Termos
- Classificação Binária: Uma tarefa em que as entradas são classificadas em duas categorias.
- Verdadeiros Positivos (TP): Instâncias positivas previstas corretamente.
- Verdadeiros Negativos (TN): Instâncias negativas previstas corretamente.
- Falsos Positivos (FP): Instâncias positivas previstas incorretamente.
- Falsos Negativos (FN): Instâncias negativas previstas incorretamente.
Fatos Interessantes Sobre o MCC
- Tratamento de Desequilíbrio: O MCC é amplamente preferido em relação à precisão em conjuntos de dados desequilibrados devido à sua capacidade de lidar efetivamente com distribuições de classe desiguais.
- Contexto Histórico: Nomeado em homenagem a Brian W. Matthews, o MCC foi introduzido pela primeira vez no contexto da avaliação de previsões de estrutura secundária de proteínas.
- Aplicações no Mundo Real: O MCC é amplamente utilizado em bioinformática, descoberta de fármacos e diagnósticos médicos para avaliar a confiabilidade do modelo.