Type a search term to find related articles by LIMS subject matter experts gathered from the most trusted and dynamic collaboration tools in the laboratory informatics industry.
Estatística |
---|
Moda é uma das medidas de altura de um conjunto de dados, assim como a média e a mediana. Ela pode ser definida em moda amostral e populacional.
Em relação à primeira delas, a moda amostral de um conjunto de dados trata do valor que ocorre com maior frequência ou o valor mais comum em um conjunto de dados.[1] Moda é especialmente útil quando os valores ou as observações não são numéricos, casos em que a média e a mediana não podem ser definidas. Por exemplo, a moda da amostra {maçã, banana, laranja, laranja, laranja, pêssego} é laranja.[2] Moda amostral não é necessariamente única como média ou mediana. Amostras que possuem uma moda são chamadas unimodais. Por exemplo, a amostra {1, 2, 3, 5, 5, 6, 7} tem moda 5. Amostras que possuem duas modas são chamadas bimodais. Por exemplo, a amostra {1, 2, 3, 5, 5, 6, 6} tem modas 5 e 6. Amostras que possuem várias modas são chamadas multimodais. Por exemplo, a amostra {1, 2, 3, 5, 5, 6, 6, 7, 7} tem modas 5, 6 e 7. Amostras que não possuem moda são chamadas amodais. Por exemplo, a amostra {1, 3, 2, 5, 7, 6} não tem moda.[3]
Já a moda populacional de uma distribuição de probabilidade discreta é o valor , em que a função massa de probabilidade atinge o valor máximo. Em outras palavras, é o valor que é mais provável de ser amostrado. Moda populacional de uma distribuição de probabilidade contínua é o valor , em que a função densidade de probabilidade atinge o valor máximo. Em outras palavras, é o valor que está no pico. Moda populacional também não é necessariamente única, uma vez que a função massa de probabilidade ou a função densidade de probabilidade podem ter o mesmo valor máximo em vários pontos . O caso extremo ocorre nas distribuições uniformes, em que todos os valores ocorrem com igual frequência.
De acordo com a definição acima, máximos globais são modas. Quando uma função densidade de probabilidade tem vários máximos locais, é comum referir-se a todos os máximos locais como modos de distribuição. Tal distribuição contínua é chamada multimodal (em oposição a unimodal). Em distribuições unimodais simétricas como a distribuição normal ou distribuição gaussiana (distribuição cuja função densidade de probabilidade forma a curva em forma de sino quando representada graficamente), a média, a mediana e a moda coincidem. Em amostras extraídas de distribuições simétricas, a média pode ser a estimativa da moda populacional. É importante lembrar que o valor expresso como maioria em um conjunto de dados não necessariamente representa o valor da moda estatística.[4]
O termo "moda" tem origem em 1895 com Karl Pearson, influenciado pela expressão "estar na moda" usada para objetos muito utilizados pela sociedade como um modelo de carro, uma peça de roupa, um tipo de celular, entre outros utensílios que deem ideia de frequência.[5][6][7] Se no cotidiano moda significa muito usado, em estatística moda significa o valor mais frequente em um conjunto de dados.
De acordo com W. Allen Wallis e Harry V. Roberts, no livro Curso de Estatística, há uma referência antiga ao conceito no cerco dos plateus e dos atenienses pelos peloponésios e pelos beócios. No inverno de 428 a.C., os plateus e os atenienses sitiados pelos peloponésios e pelos beócios construíram escadas para escapar pelas muralhas inimigas. Para construir escadas da altura das muralhas inimigas, muitos plateus e atenienses contaram as camadas de tijolos. Mesmo que houvesse erros, a maioria dos sitiados haveria de ter acertado as contagens. Isto é, o grande número de contagens haveria de ser confiável.[5]
Uma amostra pode ser unimodal (uma moda), bimodal (duas modas), multimodal (várias modas) e amodal (nenhuma moda).[3] Determinadas distribuições patológicas como a distribuição de Cantor não apresentam moda definida. Em uma votação em que a quantidade de votos determina a vitória, um resultado unimodal determina o vencedor enquanto que um valor multimodal exige o desempate. A amostra é chamada homogênea quando possui apenas uma moda e heterogênea quando possui mais de uma moda.[8]
Em estatística, moda como média e mediana é uma medida de posição, de localização ou de tendência central que mostra a frequência dos dados. Geralmente ordena-se os elementos de um conjunto de dados e conclui-se que a moda é o elemento com maior repetição. [9]
Moda em conjunto de dados com elementos repetidos é o valor que ocorre com maior frequência ou o valor mais comum em um conjunto de dados.[1][10]
Sejam os conjuntos com .
Para , a moda é .
Para , as modas são e .
Para , as modas são e .[11]
Moda é útil quando um ou dois valores ocorrem com maior frequência em um conjunto de dados. Entretanto, a moda nada acrescenta em termos de descrição dos dados quando todos ou quase todos os valores ocorrem aproximadamente com a mesma frequência. (p.23)[12] Se nenhum valor ocorre com maior frequência em um conjunto de dados, então todos os valores que ocorrem com a maior frequência são chamados valores modais. (p.22)[13]
Sejam os conjuntos com
Para , não há moda.
Para , não há moda.[11]
Medida | Descrição | Exemplo | Resultado | Principal característica | Principal limitação |
---|---|---|---|---|---|
Média aritmética | Soma dos valores dividido pelo número de valores de um conjunto de dados.[14] | 4 | Reflete cada valor da amostra.[15] | É influenciada por valores extremos.[15] | |
Mediana | Valor que separa a metade maior e a metade menor de um conjunto de dados.[16][17] | 1, 2, 2, 3, 4, 7, 9 | 3 | É menos sensível aos valores extremamente altos ou baixos de uma amostra.[15] | É difícil de determinar para grandes amostras.[15] |
Moda | Valor que ocorre com maior frequência em um conjunto de dados.[1] | 1, 2, 2, 3, 4, 7, 9 | 2 | Representa o valor típico ou o valor com maior frequência em um ponto.[15] | Não existe para certos conjuntos de dados.[15] |
Diferente da média e da mediana, a moda é aplicada aos dados nominais. Isto é, quando não há valores numéricos.[18][19] Por exemplo, qual a nota modal de um determinado grupo de estudantes em uma determinada disciplina?
Notas | Número de estudantes |
A | 3 |
B | 15 |
C | 10 |
D | 9 |
E | 8 |
A nota modal é B, porque é a nota com maior frequência na amostra.[20]
Embora comum, é falsa a crença que não é possível obter uma informação sobre variabilidade da população a partir de uma única observação e que um intervalo de confiança de comprimento finito para média e / ou variância não são possíveis.
É possível para uma distribuição unimodal desconhecida estimar o intervalo de confiança para a moda com uma amostra de tamanho 1.[22] Isso foi mostrado primeiramente por Abbot and Rosenblatt e ampliado por Blachman[23] e Machol.[24] O intervalo de confiança pode ser sharpened se a distribuição pode ser assumida como sendo simétrica. É ainda possível sharpen o intervalo se a distribuição é normalmente distribuída.
Seja o intervalo de confiança . Então, os intervalos de confiança para as variáveis gerais, simétricas e normalmente distribuídas respectivamente são , e , em que é a variável aleatória, é a moda e é o valor absoluto.
Essas estimativas são conservadoras. Os intervalos de confiança para a moda no nível de 90% dada por esses estimadores são
, e , para as variáveis gerais, simétricas e normalmente distribuídas, respectivamente.
O intervalo de confiança de 95% para uma variável normalmente distribuída é dado por , lembrando que média e a moda coincidem se as variáveis são normalmente distribuídas.
O limite de 95% para uma variável normalmente distribuída tem sido melhorado e é conhecido como .[25] O limite para um intervalo de confiança de 99% é .
De acordo com Machol, dada uma densidade simétrica conhecida sobre 0 e dado um valor da amostra único , os intervalos de confiança de 90% da média da população são:[24] , em que é a mediana da população.
Se a forma precisa da distribuição não for conhecida, mas for simétrica sobre 0, então , em que é a variável, é a média da população e e são números reais arbitrários.
Também é possível estimar o intervalo de confiança para o desvio padrão a partir de uma única observação se a distribuição é simétrica em 0.[26] Para uma distribuição normal com uma variância desconhecida um ponto de dado único , os intervalos de confiança de 90%, 95% e 99% para o desvio padrão são , e . Esses intervalos podem ser reduzidos se a média for conhecida por ser limitada por um múltiplo do desvio padrão.
Se a distribuição for conhecida por ser normal, então é possível estimar o intervalo de confiança para a média e a variância a partir de um valor simples.[27] Os intervalos de confiança de 90% são e .
Os intervalos de confiança podem ser estimados para qualquer intervalo escolhido. Esse método não é limitado para distribuições normais, mas pode ser usado para qualquer distribuição conhecida.
Quando não há acesso aos dados originais mas apenas uma tabela que agrupa os dados em classes de uma variável quantitativa existem vários procedimentos para o cálculo da moda. Os três cálculos de moda mais conhecidos são a moda bruta, a moda de King e a moda de Czuber.[28]
Moda bruta é o ponto médio da classe de maior frequência. Seja o conjunto das alturas de um determinado grupo de pessoas.
Altura (cm) | Número de pessoas (frequência) |
---|---|
161 – 170 | 6 |
171 – 180 | 10 |
181 – 190 | 3 |
No conjunto , as alturas são as classes. A classe modal é o intervalo entre 171 e 180, com frequência 10.
Então, a moda será definida por , em que é a moda, é o limite inferior da classe modal e é o limite superior da classe modal.
Portanto, a moda será .[29]
Moda de King considera as classes adjacentes à classe modal. Seja o mesmo conjunto das alturas do mesmo grupo de pessoas. A amplitude da classe modal é 9, pois a diferença entre 171 e 180 é 9 (assim como ocorre com os intervalos entre 161 e 170 e entre 181 e 190). As classes adjacentes à classe modal são o intervalo entre 161 e 170, com frequência 6, e o intervalo entre 181 e 190, com frequência 3. [29]
Então, a moda será definida por , em que é o limite inferior da classe modal, é a amplitude da classe modal, é a frequência de classe posterior a classe modal e é a frequência de classe anterior a classe modal.
Portanto, a moda será .[29]
Moda de Czuber considera as classes adjacentes à classe modal e a própria classe modal. Seja o mesmo conjunto das alturas do mesmo grupo de pessoas.
Então, a moda será definida por, em que é o limite inferior da classe modal, é a amplitude da classe modal, é a frequência da classe posterior a classe modal, é a frequência da classe anterior a classe modal e é a frequência da classe modal.
Portanto, a moda será.[29]
A diferença entre a média e a moda da distribuição contínua unimodal é limitada pelo desvio padrão multiplicado pela raiz quadrada de três.[30] Em termos matemáticos,, em que é o valor absoluto. Inclusive, a fórmula também é a regra de Pearson ou o primeiro coeficiente de assimetria.[31]
A diferença entre a moda e a mediana tem o mesmo limite.[30] Em termos matemáticos,.
Para uma distribuição unimodal, a mediana e a média estão dentro dos desvios-padrão de cada um.[32] Em termos matemáticos,.
Existe uma relação similar para a mediana e a moda, que estão dentro dos desvios-padrão de cada um.[30] Em termos matemáticos,.[30]
Assim como a média e a mediana, a moda expressa em um único número uma informação importante sobre uma variável aleatória ou uma população. O valor numérico da moda coincide com o valor numérico da média e da mediana em distribuições simétricas unimodais como distribuições normais (se a média, a mediana e a moda forem extraídas de uma distribuição simétrica, a média da amostra pode ser usada como estimativa da moda da população). O valor numérico da moda difere do valor número da média e da mediana em distribuições muito distorcidas.[13]
Um exemplo de uma distribuição distorcida é a renda pessoal. Enquanto muitas pessoas são muito pobres, poucas pessoas são muito ricas (dentre elas, muitas são extremamente ricas).[33]
Uma classe de distribuições que pode ser arbitrariamente distorcida é dada pela distribuição log-normal. Ela é obtida pela transformação da variável aleatória com distribuição normal pela variável aleatória . [34]Então, o logaritmo da variável aleatória é normalmente distribuído. Se a média de for 0, a mediana de será 1 independente do desvio padrão de . Como tem distribuição simétrica, a mediana será sempre 0. Como a transformação de para é monótona, a mediana para .[34]
Quando tem desvio padrão , a distribuição é fracamente distorcida. Usando as fórmulas para a distribuição log-normal, é possível encontrar:
Isto é, a mediana é cerca de um terço da distância entre a média e a moda.[35]
Quando tem desvio padrão , a distribuição é fortemente distorcida. Usando as fórmulas para a distribuição log-normal, é possível encontrar:
Isto é, a regra de Pearson não é válida.[35]
Derivada de Van Zwet é uma desigualdade que fornece condições suficientes para assegurar a desigualdade .[36] Tem-se que para todos os , em que é a função de distribuição cumulativa da distribuição.[37]
Densidade Kernel. Moda também pode ser calculada por meio da estimativa de densidade Kernel, que ofusca amostras pontuais para produzir uma estimativa contínua de uma função densidade de probabilidade que pode fornecer uma estimativa da moda.[38]
Algoritmo em MATLAB. O exemplo seguinte de código MATLAB ou Octave computa a moda de uma amostra usando derivadas discretas.[39]
X = sort(x);
indices = find(diff([X; realmax]) > 0); % os índices em que valores repetidos mudança
[modeL,i] = max (diff([0; indices])); % maior comprimento persistência de valores repetidos
mode = X(indices(i));
O algoritmo coloca a amostra em ordem crescente e calcula a derivada discreta da amostra em ordem crescente. Depois ele procura os índices nos quais a derivada é positiva. Em seguira, ele calcula a derivada discreta deste conjunto de índices, e, finalmente, avalia a amostra classificada no ponto em que ocorre esse máximo, o que corresponde ao último membro do estiramento dos valores repetidos.[39]
Algoritmo em Pascal. Em informática, é possível criar um software que descubra a moda de uma lista de valores em um algoritmo (Pascal):
PROGRAM calcular_moda;
CONST
n = 20;
VAR
moda : array [1..n] of real;
c : array [1..n] of integer;
i, j, m, cont, a : integer;
BEGIN
cont := 0;
WRITE('Quantos números possui a lista');
READLN(a);
FOR i := 1 TO a DO
BEGIN
WRITE('N', i, ' = ');
READLN(moda[i]);
c[i] := 0;
END;
FOR i := 1 TO a DO
BEGIN
FOR j := 1 TO a DO
BEGIN
IF((moda[i] = moda[j]) AND (i <> j))THEN
c[i] := c[i] + 1;
IF((c[i] = c[j]) AND (i <> j) AND (moda[i] = moda[j]))THEN
c[i] := 0;
END;
END;
FOR i := 1 TO a DO
BEGIN
IF(c[i] = 0)THEN
moda[i] := 0;
END;
FOR i := 1 TO a DO
BEGIN
IF(moda[i] <> 0)THEN
cont := cont + 1;
END;
FOR m := 1 TO (cont DIV 2) DO
BEGIN
FOR i := 1 TO a DO
BEGIN
FOR j := 1 TO a DO
BEGIN
IF((moda[i] = moda[j]) AND (i <> j))THEN
c[i] := c[i] + 1;
IF((c[i] = c[j]) AND (i <> j) AND (moda[i] = moda[j]))THEN
c[i] := 0;
END;
IF(c[i] = 0)THEN
moda[i] := 0;
END;
END;
FOR i := 1 TO a DO
BEGIN
IF(moda[i] <> 0)THEN
WRITELN('Moda = ', moda[i]);
END;
READLN;
END.
O mesmo código em C
#include <stdio.h>
#include <conio.h>
#define n 20
int main(){
float moda[n];
int c [n];
int i, j, m, cont, a;
cont = 0;
printf("Quantos números possui a lista ");
scanf("%d",&a);
for (i = 1; i <= a; i++)
{
printf("N %d = ", i);
scanf("%f",&moda[i]);
c[i] = 0;
}
for(i=1;i<=a;i++)
{
for(j=1;j<=a;j++)
{
if((moda[i] == moda[j]) && (i != j))
c[i] = c[i] + 1;
if((c[i] == c[j]) && (i != j) && (moda[i] == moda[j]))
c[i] = 0;
}
}
for(i=1;i<=a;i++)
{
if(c[i] == 0)
moda[i] = 0;
}
for(i=1;i<=a;i++)
{
if(moda[i] != 0)
cont = cont + 1;
}
for (m = 1; m <= ((int)cont / 2);m++)
{
for(i=1;i<=a;i++)
{
for(j=1;j<=a;j++)
{
if((moda[i] == moda[j]) && (i != j))
c[i] = c[i] + 1;
if((c[i] == c[j]) && (i != j) && (moda[i] == moda[j]))
c[i] = 0;
}
if(c[i] == 0)
moda[i] = 0;
}
}
for(i=1;i<=a;i++)
{
if(moda[i] != 0)
printf("Moda = %g", moda[i]);
}
getch();
return 0;
}
Algoritmo em Python. Em Python, é possível utilizar:
lista = input('N = ')
print "Moda = ",
print max(set(lista),key=lista.count)