O termo Data Explosion, ou Explosão de Dados, significa que o mundo atual está em uma fase de geração rápida de dados, juntamente com o seu armazenamento. Hoje, os dados não são limitados à ciência, de uma forma geral, nem aos sistemas financeiros, mas a todo tipo de informação possível nunca imaginável anos atrás. Câmeras, celulares, navegadores utilizados para navegar na Internet, redes sociais, etc. são sistemas que adquirem e enviam dados a grandes DataCenters, onde as informações são armazenadas.
Tais informações, a princípio, são utilizadas para atividades transacionais e operacionais, mas sua análise e uso pode ser muito mais abrangente. Pode-se prever o comportamento de venda de produtos e serviços pelas empresas, o comportamento dos consumidores, as necessidades do mercado varejista, pode-se ainda determinar qual é o melhor lugar para instalar uma nova loja, dentre outras possibilidades.
Mas onde é que entra o Machine Learning nesta história?
Bom, para trabalhar com Machine Learning são necessários dados e estamos em um momento histórico onde há mais dados disponíveis que em qualquer outra época da história humana, o famoso Big Data. Podemos utilizar estes dados para melhorar o processo de tomada de decisão e redução de risco, e é aí que se encaixam as ferramentas de Machine Learning.
Machine Learning é uma subárea da Inteligência Artificial. E o que é Inteligência Artificial? Segundo Gheorghe Tecuci, um dos pesquisadores da área, Inteligência Artificial pode ser definida assim: “A Inteligência Artificial (IA) é o domínio da Ciência e da Engenharia, preocupado com a teoria e prática do desenvolvimento de sistemas que exibem as características que associamos à inteligência no comportamento humano”. Dentre as características que um comportamento inteligente pode assumir, pode-se destacar: capacidade de percepção, processamento de linguagem natural, resolução de problemas, planejamento, aprendizado, adaptação e atuação sobre o meio ambiente. Como podemos observar, Inteligência Artificial não é um menino com um cérebro eletrônico como é mostrado em alguns filmes. A Inteligência Artificial não é uma mágica, mas sim um conjunto de técnicas computacionais.
A disciplina Inteligência Artificial é hoje conhecida como altamente interdisciplinar, envolvendo várias áreas do conhecimento humano. Dentre estas áreas, as mais importantes são: Computação, Matemática, Linguística, Psicologia, Estatística, Economia, Filosofia e Sistemas de Controle e Automação. Algumas subdivisões da Inteligência Artificial foram construídas com o passar dos anos, algumas são: representação do conhecimento, jogos, prova de teoremas, planejamento, raciocínio probabilístico, aprendizado da máquina (Machine Learning), processamento de linguagem natural, visão computacional, robótica, redes neurais, algoritmos genéticos, sistemas de controle fuzzy, dentre outras.
Sob o ponto de vista da análise de dados, o aprendizado e aquisição do conhecimento são as áreas mais importantes, haja visto que o aprendizado e aquisição do conhecimento é propiciado pelos dados disponíveis de um problema específico. Aprendizado da Máquina ou Machine Learning é a área responsável pelo aprendizado do agente inteligente que pode ser definido, informalmente, como um componente de software inteligente. Exemplos de sistemas de aprendizado da máquina (Machine Learning) são: redes neurais artificiais (Deep Learning), máquinas de vetores de suporte (Support Vector Machines ou SVM) , árvores de decisão (Decision Trees), classificadores Bayesianos (Gaussian Naive Bayes), AdaBoost, Quadratic Discriminant Analysis, Logistic Regression, Random Forestdentre outros algoritmos. Exemplos de metodologia de aprendizado são: aprendizado por reforço, aprendizado baseado em algoritmos genéticos, descoberta quantitativa, clustering e outros métodos.
Conceito Machine Learning
Agora, finalmente, vamos responder à pergunta: O que é Machine Learning? Michael Jordan (o cientista, não o jogador de basqueste), descreve o Machine Learning como uma área da ciência que trata da questão de como criar computadores que melhorem automaticamente através da experiência e do aprendizado. É uma área que se encontra no núcleo da Inteligência Artificial, contando, também, com ciências da computação e estatística. “O progresso recente na aprendizagem por máquinas tem sido impulsionado tanto pelo desenvolvimento de novos algoritmos de aprendizagem quanto pela teoria e pela explosão em curso na disponibilidade de dados online e computação de baixo custo. A adoção de intensivos métodos de aprendizagem de máquina em dados pode ser encontrada em toda a ciência, tecnologia e comércio, levando a tomada de decisões baseadas em evidências práticas (dados) em muitos setores da vida, incluindo cuidados de saúde, manufatura, educação, modelagem financeira, policiamento e marketing”.
As duas dimensões principais da disciplina de Machine Learning são:
Como construir sistemas computacionais que evoluam automaticamente através da experiência e do aprendizado, ou seja, aprender através dos dados disponíveis?
Quais são as leis científicas que governam todos os sistemas de aprendizagem?
Mas como eu posso aplicar Machine Learning no meu negócio?
As três grandes áreas de aplicação de técnicas de Machine Learning são: Regressão, Classificação e Clusterização. Vamos descrever brevemente cada uma delas.
Regressão
Regressão é a predição de uma quantidade numérica contínua. Um exemplo é a predição dos valores de ações na Bolsa. Outro exemplo é a predição de quantos milímetros de chuva vai cair em São Paulo amanhã.
Classificação
Identificação se um objeto pertence a determinada classe. Aqui, objeto pode ser qualquer coisa concreta ou abstrata. Um exemplo é classificar uma operação de compra online se é fraude ou se é uma operação normal. Outro exemplo é classificar imagens de laranjas capturadas em tempo real em uma esteira para que as laranjas podres ou fora dos padrões sejam separadas das demais.
Clusterização
A Clusterização é uma técnica exploratória. Ela serve para criarmos conjuntos em um universo desconhecido baseado em similaridades. Por exemplo, em um banco de dados de clientes podemos querer separá-los para que possamos oferecer algum produto ou serviço diferenciado. Se ainda não tivermos uma regra para esta criação de conjuntos, podemos aplicar técnicas de clusterização e observar os conjuntos formados. Após isto, uma análise é feita nestes conjuntos para verificar a coerência. Um outro exemplo é a análise comportamental de um sistema. Vamos supor que tenhamos um banco de dados onde temos médicos, laboratórios, procedimentos, etc. Através da clusterização, podemos verificar se há algum médico ou médicos que não estão no “padrão” de comportamento de solicitação de exames, por exemplo, em relação ao conjunto de médicos da mesma especialidade.
Desta maneira, com a regressão, classificação e clusterização, podemos aprender com os dados. Isso pode implicar em um processo de tomada de decisão com mais segurança e menor risco. Particularmente para as empresas, a utilização dessas técnicas pode ser a diferença entre se manter no mercado ou simplesmente ser engolido por ele.
Se você gostou, inscreva se, mande sua opinião!
Meu e-mail: diogo.vidal@outlook.com | Diogo Vidal
Comments