Como escolher algoritmos de ML para problemas de regressão?

Há esse burburinho em todos os lugares – Aprendizado de Máquina!

Então, o que é esse “Aprendizado de Máquina (ML)?”

Vamos considerar um exemplo prático. Se você pudesse imaginar a probabilidade do resultado de uma tarefa realizada pela primeira vez – digamos que o trabalho seja aprender a andar de carro. Ou seja, como você se avaliaria? Com incerteza?

Por outro lado, você gostaria de se recompensar pela mesma tarefa depois de alguns anos de prática? Provavelmente você teria sua mentalidade transferida do parâmetro de incerteza ou de um mais certo. Então, como você conseguiu essa experiência na tarefa?

Muito provavelmente, você ganhou experiência ajustando alguns parâmetros e seu desempenho melhorou. Certo? Isso é Aprendizado de máquina .

Diz-se que um programa de computador aprende com a experiência (E) em algumas tarefas (T) para fornecer o melhor resultado (P).

Na mesma linha, as máquinas aprendem por meio de alguns conceitos matemáticos complexos, e todos os dados para elas estão na forma de 0 e 1. Como resultado, não codificamos a lógica de nosso programa; em vez disso, queremos que uma máquina descubra a lógica dos dados por conta própria.

Além disso, se você deseja encontrar a relação entre experiência, nível de trabalho, habilidade rara e salário, precisa ensinar algoritmos de aprendizado de máquina.

Conjunto de dados complexo com mais recursos Conjunto de dados complexo com mais recursos

De acordo com este estudo de caso, você precisa ajustar os recursos para obter os rótulos. Mas você não codifica o Algoritmo e seu foco deve estar nos dados.

Portanto, o conceito é Dados + Algoritmo = Insights. Em segundo lugar, os algoritmos já foram desenvolvidos para nós e precisamos saber qual algoritmo usar para resolver nossos problemas. Vamos dar uma olhada no problema de regressão e na melhor maneira de escolher um algoritmo.

Visão geral do aprendizado de máquina

De acordo com Andreybu um cientista alemão com mais de 5 anos de experiência em aprendizado de máquina, “Se você pode entender se a tarefa de aprendizado de máquina é um problema de regressão ou classificação, então escolher o algoritmo certo é moleza”.

os diferentes grupos de aprendizado de máquina Os diferentes agrupamentos de aprendizado de máquina

Para enumerar, a principal diferença entre elas é que a variável de saída na regressão é numérica (ou contínua) enquanto a da classificação é categórica (ou discreta).

Regressão em aprendizado de máquina

Para começar, os algoritmos de regressão tentam estimar a função de mapeamento (f) das variáveis ​​de entrada (x) para variáveis ​​de saída numéricas ou contínuas (y). Agora, a variável de saída pode ser um valor real, que pode ser um número inteiro ou um valor de ponto flutuante. Portanto, os problemas de previsão de regressão são geralmente quantidades ou tamanhos.

Por exemplo, se você receber um conjunto de dados sobre casas e for solicitado a prever seus preços, essa é uma tarefa de regressão porque o preço será uma saída contínua.

Exemplos de algoritmos de regressão comuns incluem regressão linear, Regressão vetorial de suporte (SVR) e árvores de regressão.

Classificação em aprendizado de máquina

Por outro lado, no caso de algoritmos de classificação, y é uma categoria que a função de mapeamento prevê. Para elaborar, para uma ou várias variáveis ​​de entrada, um modelo de classificação tentará prever o valor de uma ou várias conclusões.

Por exemplo, se você receber um conjunto de dados sobre casas, um algoritmo de classificação pode tentar prever se os preços das casas “vendem mais ou menos do que o preço de varejo recomendado”. Aqui as duas categorias discretas: acima ou abaixo do referido preço.

Exemplos de algoritmos de classificação comuns incluem regressão logística, Naïve Bayes, árvores de decisão e K vizinhos mais próximos.

Escolhendo os Algoritmos Certos

Avaliação de ML correta O meticuloso Data Digging para avaliação correta de ML

Entenda seus dados

  • Dê uma olhada nas estatísticas resumidas
  • Use o parâmetro ‘Percentile’ para identificar os intervalos dos dados
  • Médias e medianas descrevem a tendência central
  • As correlações podem indicar relações fortes

Visualize os dados

  • Os gráficos de caixa podem indicar exceções.
  • Gráficos de densidade e histogramas mostram a distribuição dos dados
  • Gráficos de dispersão podem descrever relações de quantidade

Limpe os dados

Descobrindo as peças que faltam Descobrir as peças que faltam — Prioridade na lista de tarefas para encontrar o algoritmo de ML certo
  • Lide com um valor ausente. O resultado está sujeito a fornecer resultados sensíveis no caso (dados ausentes para certas variáveis ​​podem resultar em previsões imprecisas)
  • Embora os modelos de árvore sejam menos sensíveis à presença de outliers, os modelos regressivos ou outros modelos que usam equações são mais sensíveis às exceções
  • Basicamente, os outliers podem ser o resultado de uma coleta de dados incorreta ou podem ser valores extremos legítimos

Curar os dados

Além disso, ao converter os dados brutos em dados polidos compatíveis com os modelos, deve-se tomar cuidado com o seguinte:

  • Torne os dados mais fáceis de interpretar.
  • Capture dados mais complexos.
  • Concentre-se em reduzir a redundância e a dimensionalidade dos dados.
  • Normalize os valores das variáveis.

Categorize o problema por meio da variável de entrada

  • Você rotulou os dados; é um problema de aprendizado supervisionado.
  • Se você tiver dados não rotulados e quiser encontrar a estrutura, é um problema de aprendizado não supervisionado.
  • Caso você queira otimizar uma função objetivo interagindo com um ambiente, é uma aprendizagem por reforço problema.

Categorize o problema por meio da variável de saída

  • A saída do seu modelo é um número; é um problema de regressão.
  • Quando a saída do seu modelo é uma classe, então é um problema de classificação.
  • A saída do seu modelo é um conjunto de grupos de entrada; é um problema de agrupamento.

O fator de restrição

  • Anote a capacidade de armazenamento, pois varia para vários modelos.
  • A previsão tem que ser rápida? Por exemplo, em cenários em tempo real, como a classificação de sinais de trânsito, seja o mais rápido possível para evitar acidentes.

Finalmente, encontre o algoritmo

O Método Lógico O Método Lógico: Siga o Procedimento

Agora que você tem uma imagem clara de seus dados, pode implementar ferramentas adequadas para escolher o algoritmo certo.

Entretanto, para uma melhor decisão, aqui está uma lista de verificação dos fatores para você:

  • Veja se o modelo se alinha ao seu objetivo de negócios
  • Quanto pré-processamento o modelo requer
  • Verifique a precisão do modelo
  • Quão explicável é o modelo
  • Quão rápido é o modelo: quanto tempo leva para construir um modelo e quanto tempo o modelo leva para fazer previsões
  • A escalabilidade do modelo

Para adicionar, é preciso prestar atenção à complexidade do algoritmo ao escolher.

De um modo geral, você pode medir a complexidade do modelo usando os parâmetros:

  • Quando requer dois ou mais de dez recursos para aprender e prever o alvo
  • Ele se baseia em uma engenharia de recursos mais complexa (por exemplo, usando termos polinomiais, interações ou componentes principais)
  • Quando o cenário tem mais sobrecarga computacional (por exemplo, uma única árvore de decisão versus uma floresta aleatória de 100 árvores)

Além disso, o mesmo algoritmo pode ser tornado mais complexo manualmente. Depende puramente do número de parâmetros concedidos e do cenário em consideração. Por exemplo, você pode criar um modelo de regressão com mais recursos ou termos polinomiais e termos de interação. Ou você pode projetar uma árvore de decisão com menos profundidade.

Os algoritmos comuns de aprendizado de máquina

Regressão linear

Estes são provavelmente os mais simples.
Alguns dos exemplos em que a regressão linear é usada são:

  • Em primeiro lugar, quando é hora de ir de um local para outro
  • Prevendo as vendas de um determinado produto no próximo mês
  • Impacto do teor de álcool no sangue na coordenação
  • Preveja as vendas mensais de cartões-presente e melhore as projeções de receita anual

Regressão Logística

Aparentemente, há muitas vantagens nesse algoritmo – integração de mais recursos com uma boa facilidade de interpretação, facilidade de atualização fácil para anexar novos dados.

Em outras palavras, você poderia usar isso para:

  • Prevendo a rotatividade de clientes.
  • O caso particular de pontuação de crédito ou detecção de fraude.
  • Medir a eficácia das campanhas de marketing.

Árvores de decisão

Aparentemente, árvores únicas raramente são usadas, mas em composição, com muitas outras, elas constroem algoritmos eficientes, como Random Forest ou Gradient Tree Boosting. No entanto, uma das desvantagens é que eles não oferecem suporte ao aprendizado on-line; portanto, você deve reconstruir sua árvore quando novos exemplos aparecerem.

As árvores são excelentes para:

  • Decisões de investimento
  • Inadimplentes de Empréstimos Bancários
  • Qualificações de leads de vendas

Baías ingénuas

Mais importante ainda, Naive Bayes é a escolha certa quando os recursos de CPU e memória são um fator limitante. No entanto, sua principal desvantagem é que ele não pode aprender as interações entre os recursos.

Pode ser usado para:

  • Reconhecimento facial
  • Para marcar um e-mail como spam ou não.
  • Análise de sentimentos e classificação de textos.

Conclusão

Portanto, de um modo geral, em um cenário em tempo real, é um pouco difícil encontrar o algoritmo de aprendizado de máquina correto para esse fim. No entanto, você pode usar esta lista de verificação para selecionar alguns algoritmos conforme sua conveniência.

Além disso, optar pela solução certa para um problema da vida real requer uma compreensão especializada do negócio junto com o algoritmo certo. Portanto, ensine seus dados nos algoritmos certos, execute-os em paralelo ou serial e, no final, avalie o desempenho dos algoritmos para selecionar o(s) melhor(es).

Se você deseja se especializar em aprendizado profundo, pode conferir este curso por aprendizado profundo .