O que é Data Science? Um guia para iniciantes em Ciência de Dados

O mundo entrou na era do big data, a necessidade de armazenamento também cresceu. Foi o principal desafio e preocupação para as indústrias da empresa até 2010. O foco principal estava na criação de estruturas e soluções para armazenar dados. Quando o Hadoop e outras estruturas resolverem com êxito o problema de armazenamento, o foco mudou para o processamento desses dados. Data Science é o molho secreto aqui. Todas as idéias que você vê nos filmes de ficção científica de Hollywood podem realmente se tornar realidade pela Data Science. A ciência de dados é o futuro da Inteligência Artificial. Portanto, é muito importante entender o que é a ciência de dados e como ela pode agregar valor ao seu negócio.

No final deste blog, você será capaz de entender o que é a Ciência de Dados e seu papel na extração de insights significativos a partir dos complexos e grandes conjuntos de dados que nos rodeiam. Para obter um conhecimento aprofundado sobre Data Science.

Por que precisamos da ciência de dados

Tradicionalmente, os dados que tínhamos eram, na maior parte, estruturados e pequenos em tamanho, que podiam ser analisados ​​usando as ferramentas simples de BI (Business Intelligence). Ao contrário dos dados nos sistemas tradicionais, que eram em grande parte estruturados, hoje a maioria dos dados é desestruturado ou semi-estruturado. Vamos dar uma olhada nas tendências de dados na imagem abaixo, o que mostra que, até 2020, mais de 80% dos dados serão desestruturados.

grafico dados nao estruturados - data science

Esses dados são gerados a partir de diferentes fontes, como registros financeiros, arquivos de texto, formulários multimídia, sensores e instrumentos. Ferramentas simples de BI não são capazes de processar esse enorme volume e variedade de dados. É por isso que precisamos de ferramentas e algoritmos analíticos mais complexos e avançados para processar, analisar e extrair insights significativos.

Esta não é a única razão pela qual a Data Science se tornou tão popular. Vamos nos aprofundar e ver como a ciência de dados está sendo usada em vários domínios.

E se você pudesse entender os requisitos precisos de seus clientes a partir dos dados existentes, como o histórico de navegação, o histórico de compras, a idade e a renda do cliente. Sem dúvida, você já tinha todos esses dados antes, mas agora, com a grande quantidade e variedade de dados, é possível treinar modelos com mais eficácia e recomendar o produto aos seus clientes com mais precisão. Não seria incrível, pois traria mais negócios para sua organização?

Vamos pegar um cenário diferente para entender o papel da Ciência de Dados na tomada de decisões. E se o seu carro tivesse inteligência para te levar para casa? Os carros autônomos coletam dados ao vivo de sensores, incluindo radares, câmeras e lasers, para criar um mapa dos arredores. Com base nesses dados, ele toma decisões como quando acelerar, quando diminuir, quando ultrapassar, onde fazer uma curva – usando algoritmos avançados de machine learning.

Vamos ver como o Data Science pode ser usado na análise preditiva. Vamos pegar a previsão do tempo como um exemplo. Dados de navios, aeronaves, radares, satélites podem ser coletados e analisados ​​para construir modelos. Esses modelos não apenas preveem o clima, mas também ajudam a prever a ocorrência de quaisquer calamidades naturais. Isso ajudará você a tomar as medidas apropriadas de antemão e a salvar muitas vidas preciosas.
Vamos dar uma olhada no infográfico abaixo para ver todos os domínios em que a Data Science está criando sua impressão.

casos de uso da ciencia de dados - data science

Agora que você entendeu a necessidade da Ciência de dados, vamos entender o que é a Ciência de dados.

O que é Data Science?

O uso do termo Data Science é cada vez mais comum, mas o que isso significa exatamente? Quais habilidades você precisa para se tornar Cientista de Dados? Qual é a diferença entre BI e Data Science? Como as decisões e previsões são feitas na Ciência de Dados? Estas são algumas das perguntas que serão respondidas mais adiante.

Primeiro, vamos ver o que é a Data Science. A ciência de dados é uma mistura de várias ferramentas, algoritmos e princípios de machine learning com o objetivo de descobrir padrões ocultos a partir dos dados brutos. Como isso é diferente do que os estatísticos vêm fazendo há anos? A resposta está na diferença entre explicar e prever.

analista de dados vs cientista de dados

Como você pode ver na imagem acima, um analista de dados geralmente explica o que está acontecendo ao processar o histórico dos dados. Por outro lado, o cientista de dados não só faz a análise exploratória para descobrir insights a partir dela, mas também usa vários algoritmos avançados de machine learning para identificar a ocorrência de um determinado evento no futuro. Um Cientista de Dados examinará os dados de muitos ângulos, às vezes, ângulos não conhecidos anteriormente.

Assim, a Data Science é usada principalmente para tomar decisões e previsões que fazem uso de análises causais preditivas, análises prescritivas (ciência preditiva mais decisão) e machine learning.

Análise causativa preditiva

Se você quiser um modelo que possa prever as possibilidades de um determinado evento no futuro, será necessário aplicar a análise causativa preditiva. Digamos, se você está fornecendo crédito, então a probabilidade de os clientes fazerem pagamentos futuros de crédito a tempo é motivo de preocupação para você. Aqui, você pode criar um modelo que possa executar análises preditivas no histórico de pagamento do cliente para prever se os pagamentos futuros serão pontuais ou não.

Análise prescritiva

Se você quer um modelo que tenha a inteligência de tomar suas próprias decisões e a capacidade de modificá-lo com parâmetros dinâmicos, certamente precisará de uma análise prescritiva para isso. Este campo relativamente novo é sobre fornecer conselhos. Em outros termos, não apenas prevê, mas sugere uma gama de ações prescritas e resultados associados.

O melhor exemplo disso é o carro autônomo do Google, que eu também havia discutido anteriormente. Os dados coletados pelos veículos podem ser usados ​​para treinar carros autônomos. Você pode executar algoritmos nesses dados para trazer inteligência a ele. Isso permitirá que seu carro tome decisões como quando virar, qual caminho tomar, quando desacelerar ou acelerar.

Machine learning para fazer previsões

Se você tiver dados transacionais de uma empresa financeira e precisar criar um modelo para determinar a tendência futura, os algoritmos de aprendizado de máquina serão a melhor opção. Isso se enquadra no paradigma da aprendizagem supervisionada. Ele é chamado de supervisionado porque você já tem os dados com base nos quais você pode treinar suas máquinas. Por exemplo, um modelo de detecção de fraude pode ser treinado usando um registro histórico de compras fraudulentas.

Machine learning para descoberta de padrões

Se você não tiver os parâmetros com base nos quais você pode fazer previsões, precisará descobrir os padrões ocultos no conjunto de dados para poder fazer previsões significativas. Isso não é nada além do modelo não supervisionado, pois você não tem rótulos predefinidos para agrupamento. O algoritmo mais comum usado para a descoberta de padrões é o Clustering.

Digamos que você esteja trabalhando em uma empresa de telefonia e precise estabelecer uma rede colocando torres em uma região. Em seguida, você pode usar a técnica de agrupamento para localizar esses locais de torre, o que garantirá que todos os usuários recebam a intensidade ideal do sinal.

Vejamos como a proporção das abordagens descritas acima difere da Análise de dados e da Ciência de dados. Como você pode ver na imagem abaixo, a Análise de dados inclui análises descritivas e previsão até certo ponto. Por outro lado, a Data Science é mais sobre Análise de Causas Preditivas e Machine learning.

data science análise

Tenho certeza de que você também já ouviu falar de Business Intelligence (BI). Muitas vezes, a Data Science é confundida com BI. Apresentarei alguns contrastes concisos e claros entre os dois, que ajudarão você a entender melhor. Vamos dar uma olhada.

Business Intelligence (BI) versus Ciência de Dados

BI basicamente analisa os dados anteriores para encontrar retrospectiva e insight para descrever as tendências de negócios. O BI permite obter dados de fontes externas e internas, prepará-los, executar consultas e criar painéis para responder a perguntas como análise de receita trimestral ou problemas de negócios. O BI pode avaliar o impacto de certos eventos no futuro próximo.

A Data Science é uma abordagem mais voltada para o futuro, uma forma exploratória com foco na análise de dados passados ​​ou atuais e na previsão dos resultados futuros com o objetivo de tomar decisões informadas. Ele responde às perguntas abertas sobre os eventos “o quê” e “como” ocorrem.

Isso foi tudo sobre o que é Ciência de Dados, agora vamos entender o ciclo de vida da Data Science.

Um erro comum cometido em projetos de Ciência de Dados é se precipitar na coleta e análise de dados, sem entender os requisitos ou mesmo enquadrar o problema de negócios adequadamente. Portanto, é muito importante que você siga todas as fases ao longo do ciclo de vida da Data Science para garantir o bom funcionamento do projeto.

Ciclo de vida da ciência de dados

Aqui está uma breve visão geral das principais fases do Ciclo de Vida da Ciência de Dados:

ciclo de vida da ciencia de dados

Fase 1 – Descoberta: Antes de iniciar o projeto, é importante entender as várias especificações, requisitos, prioridades e orçamento necessário. Você deve possuir a capacidade de fazer as perguntas certas. Aqui, você avalia se possui os recursos necessários presentes em termos de pessoas, tecnologia, tempo e dados para apoiar o projeto. Nesta fase, você também precisa enquadrar o problema de negócios e formular hipóteses iniciais (IH) para testar.

Fase 2 – Preparação de dados: nesta fase, você precisa de um sandbox analítico no qual possa executar análises durante toda a duração do projeto. Você precisa explorar, pré-processar e condicionar os dados antes da modelagem. Além disso, você executará o ETLT (extrair, transformar, carregar e transformar) para obter dados no sandbox. Vamos dar uma olhada no fluxo de análise estatística abaixo.

Você pode usar R para limpeza de dados, transformação e visualização. Isso ajudará você a identificar os outliers e estabelecer um relacionamento entre as variáveis. Depois de limpar e preparar os dados, é hora de fazer análises exploratórias sobre isso. Vamos ver como você pode conseguir isso.

Fase 3 – Planejamento do modelo: Aqui, você determinará os métodos e técnicas para desenhar os relacionamentos entre as variáveis. Essas relações definirão a base para os algoritmos que você implementará na próxima fase. Você aplicará o Exploratory Data Analytics (EDA) usando várias fórmulas estatísticas e ferramentas de visualização.

Vamos dar uma olhada em várias ferramentas de planejamento de modelos.

ferramentas de modelos de planejamento de data science

  • R possui um conjunto completo de recursos de modelagem e fornece um bom ambiente para a construção de modelos interpretativos.
  • Os serviços SQL Analysis podem executar análises no banco de dados usando funções comuns de mineração de dados e modelos preditivos básicos.
  • O SAS / ACCESS pode ser usado para acessar dados do Hadoop e é usado para criar diagramas de fluxo de modelo repetíveis e reutilizáveis.

Embora muitas ferramentas estejam presentes no mercado, R é a ferramenta mais usada.

Agora que você tem insights sobre a natureza dos seus dados e decidiu que os algoritmos serão usados. Na próxima etapa, você aplicará o algoritmo e criará um modelo.

Fase 4 – Construção de modelo: nesta fase, você desenvolverá conjuntos de dados para fins de treinamento e teste. Você considerará se suas ferramentas existentes serão suficientes para executar os modelos ou se precisará de um ambiente mais robusto (como processamento rápido e paralelo). Você analisará várias técnicas de aprendizado, como classificação, associação e agrupamento para criar o modelo.

Você pode alcançar o modelo através das seguintes ferramentas.

ferramenta de modelos de construcao em data science

Fase 5 – Operacionalizar: Nesta fase, você entrega relatórios finais, instruções, códigos e documentos técnicos. Além disso, às vezes um projeto piloto também é implementado em um ambiente de produção em tempo real. Isso fornecerá uma imagem clara do desempenho e de outras restrições relacionadas em pequena escala antes da implantação completa.

Fase 6 – Comunicar resultados: Agora é importante avaliar se você conseguiu atingir sua meta planejada na primeira fase. Portanto, na última fase, você identifica todas as principais descobertas, comunica-se com as partes interessadas e determina se os resultados do projeto são um sucesso ou uma falha com base nos critérios desenvolvidos na Fase 1.

Agora, vou fazer um estudo de caso para explicar as várias fases descritas acima.

Estudo de caso: prevenção de diabetes

E se pudéssemos prever a ocorrência de diabetes e tomar as medidas apropriadas de antemão para preveni-la?
Neste caso de uso, vamos prever a ocorrência de diabetes fazendo uso de todo o ciclo de vida que discutimos anteriormente. Vamos percorrer as várias etapas.

Passo 1: Primeiro, coletaremos os dados com base no histórico médico do paciente, conforme discutido na Fase 1. Você pode consultar os dados de amostra abaixo.


Como você pode ver, temos os vários atributos mencionados abaixo.
Atributos:

npreg – Número de vezes que ficou grávida
glicose – concentração de glicose no plasma
pb – pressão arterial
pele – Espessura da dobra cutânea
bmi – índice de massa corporal
ped – função de diabetes
idade – idade
renda – renda

Passo 2: Agora, quando tivermos os dados, precisamos limpar e preparar os dados para análise de dados. Esses dados apresentam muitas inconsistências, como valores ausentes, colunas em branco, valores abruptos e formato de dados incorreto que precisam ser limpos. Aqui, organizamos os dados em uma única tabela sob diferentes atributos – fazendo com que pareça mais estruturado. Vamos dar uma olhada nos dados de amostra abaixo.


Esses dados têm muitas inconsistências.

Na coluna npreg, “um” é escrito em palavras, enquanto deveria estar na forma numérica como 1. Na coluna pb, um dos valores é 6600, o que é impossível (pelo menos para os humanos), pois o bp não pode subir a um valor tão grande.

Como você pode ver, a coluna “Renda” está em branco e também não faz sentido para prever o diabetes. Portanto, é redundante tê-lo aqui e deve ser removido da tabela.

Então, vamos limpar e pré-processar esses dados removendo os valores discrepantes, preenchendo os valores nulos e normalizando o tipo de dados. Se você se lembrar, esta é nossa segunda fase que é o pré-processamento de dados.
Finalmente, obtemos os dados limpos como mostrado abaixo, que podem ser usados ​​para análise.

Etapa 3: Agora vamos fazer algumas análises como discutido anteriormente na Fase 3.

Primeiro, vamos carregar os dados no sandbox analítico e aplicar várias funções estatísticas nele. Por exemplo, R tem funções como describe, o que nos dá o número de valores perdidos e valores únicos. Também podemos usar a função de resumo que nos fornecerá informações estatísticas como média, mediana, intervalo, valores mínimo e máximo.

Em seguida, usamos técnicas de visualização, como histogramas, gráficos de linha, gráficos de caixa para obter uma boa ideia da distribuição de dados.


Passo 4: Agora, com base em insights derivados da etapa anterior, o melhor ajuste para esse tipo de problema é a árvore de decisão. Vamos ver como?

Nós já temos os principais atributos para análise como npreg, bmi, etc., então usaremos a técnica de aprendizado supervisionado para construir um modelo.

Além disso, usamos particularmente a árvore de decisão porque ela leva em consideração todos os atributos de uma só vez, como os que têm um relacionamento linear, bem como aqueles que têm um relacionamento não linear. No nosso caso, temos uma relação linear entre npreg e idade, enquanto que a relação não linear entre npreg e ped.

Os modelos de árvore de decisão também são muito robustos, pois podemos usar a combinação diferente de atributos para criar várias árvores e, finalmente, implementar aquela com a máxima eficiência.

Vamos dar uma olhada na nossa árvore de decisão.

Aqui, o parâmetro mais importante é o nível de glicose, então é o nosso nó raiz. Agora, o nó atual e seu valor determinam o próximo parâmetro importante a ser tomado. Continua até obtermos o resultado em termos de pos orneg. Pos significa que a tendência de ter diabetes é positiva e neg significa que a tendência de ter diabetes é negativa.

Passo 5: Nesta fase, vamos executar um pequeno projeto piloto para verificar se nossos resultados são adequados. Também procuraremos restrições de desempenho, se houver. Se os resultados não forem precisos, precisamos replanejar e reconstruir o modelo.

Passo 6: Depois de executarmos o projeto com sucesso, compartilharemos a saída para implantação completa.

Ser um cientista de dados é mais fácil dizer do que fazer. Então, vamos ver o que você precisa para ser um cientista de dados. Um cientista de dados requer habilidades basicamente de três áreas principais, como mostrado abaixo.

Como você pode ver na imagem acima, você precisa adquirir várias habilidades e soft skills. Você precisa ser bom em estatística e matemática para analisar e visualizar dados. Não é preciso dizer que o Machine Learning forma o coração da Data Science e requer que você seja bom nisso. Além disso, você precisa ter uma sólida compreensão do domínio em que está trabalhando para entender claramente os problemas do negócio. Sua tarefa não termina aqui.

Você deve ser capaz de implementar vários algoritmos que exigem boas habilidades de programação. Finalmente, depois de tomar as decisões importantes, você deve entregá-las às partes interessadas. Então, uma boa comunicação irá definitivamente adicionar pontos às suas habilidades.

Via Edureka.co

[Total: 0    Média: 0/5]