Aprendizado de máquina parte 2: Classificação

Vamos falar de Aprendizado de Máquina primeiramente no contexto do problema de Classificação. Para definir corretamente este problema talvez seja necessário utilizar Teoria de Probabilidade e Decisão. Em vez disso, vamos tentar reduzir o problema de classificação para um problema tecnicamente simples. Para isto, vamos imaginar a seguinte situação:

O senhor João é dono de uma loja que vende apenas dois tipos de frutas: banana-prata e banana-maçã. As frutas da loja são fornecidas por uma cooperativa que seleciona, mede o comprimento e o peso, e rotula cada fruta de acordo com o seu tipo. No última encomenda, o senhor João recebeu 11 frutas da cooperativa. Na tabela abaixo, é mostrado o rótulo e as características das frutas recebidas.

Como é possível observar, foram recebidas seis frutas banana-prata, quatro frutas banana-maçã e uma fruta sem rótulo. Assim, cabe agora ao senhor João decidir se a fruta sem rótulo é uma banana-prata ou uma banana-maçã. Como ele deve tomar essa decisão? Por algum motivo, ele acredita que pode encontrar a solução deste problema no conjunto de frutas rotuladas.

Primeiramente, o senhor João observa a aparência das frutas rotuladas. Rapidamente, ele percebe que todas as frutas são semelhantes, e portanto, aparência não parece ser útil para o processo de decisão. Após um pouco de reflexão, ele volta a observar o conjunto de frutas rotuladas. Mas dessa vez, ele foca nas outras características disponíveis das frutas, isto é, o peso e o comprimento. Para entender como as características peso e comprimento se comportam no conjunto de frutas rotuladas, o senhor João usa um gráfico de dispersão mostrado logo abaixo.

No gráfico de dispersão acima, cada fruta rotulada é representada por um círculo colorido. Círculos amarelos representam frutas banana-prata, enquanto que círculos verdes representam frutas banana-maçã. Para cada círculo, a posição horizontal representa o valor do peso da fruta, e a posição vertical representa o valor do comprimento da fruta.

Ao observar o gráfico de dispersão, o senhor João percebe um padrão: as frutas banana-maçã ficam localizadas abaixo e um pouco a direita das frutas banana-prata. Isso sugere que no gráfico existem duas regiões: uma região para as frutas banana-prata e uma região para as frutas banana-maça. Para delimitar essas duas regiões o senhor João traça uma reta no gráfico de dispersão separando os círculos das frutas rotuladas com tipos diferentes. Essa reta separadora é mostrada no gráfico abaixo.

Com base nesta reta, o senhor João define o seguinte critério de decisão para a fruta que veio sem rótulo da cooperativa: se ela estiver acima da reta ela será classificada como uma banana-prata, ou se estiver abaixo da reta ela será classificada como uma banana-maça. Para efetuar a classificação, o senhor João inclui no gráfico de dispersão um círculo vermelho representando a fruta sem rótulo. Veja a figura abaixo.

Como a fruta sem rótulo está acima da reta ela é classificada como banana-prata. Pronto! O senhor João resolveu seu problema.

Aqui, o problema de classificação foi reduzido para um problema mais simples: encontrar uma reta separadora no espaço comprimento versus peso. Isso é suficiente para introduzirmos a nossa primeira máquina de aprendizado: o perceptron. Mas antes disso, iremos falar um pouco sobre retasplanos.

Source: Deep Learning on Medium