Recomendado, 2024

Escolha dos editores

Como o Apache Kafka está lubrificando grandes volumes de dados

Tutorial Implementação Apache Kafka com Talend Big Data

Tutorial Implementação Apache Kafka com Talend Big Data
Anonim

O Google Analytics é frequentemente descrito como um dos maiores desafios associados ao Big Data, mas, mesmo antes de essa etapa acontecer, os dados precisam ser processados ​​e disponibilizados para os usuários corporativos. É aí que entra o Apache Kafka.

Originalmente desenvolvido no LinkedIn, o Kafka é um sistema de código aberto para gerenciamento de fluxos de dados em tempo real de sites, aplicativos e sensores.

Essencialmente, ele age como uma espécie de empresa. sistema nervoso central "que coleta dados de alto volume sobre coisas como atividade do usuário, logs, métricas de aplicativos, cotações de ações e instrumentação de dispositivos, por exemplo, e os disponibiliza como um fluxo em tempo real para consumo por usuários corporativos.

[ Outras leituras: As melhores lâmpadas inteligentes de LED branco

O Kafka é frequentemente comparado a tecnologias como ActiveMQ ou RabbitMQ para implementações locais, ou com o Kinesis da Amazon Web Services para clientes de nuvem, disse Stephen O'Grady, co-fundador e principal analista da RedMonk.

"Está se tornando mais visível porque é um projeto de código aberto de alta qualidade, mas também porque sua capacidade de lidar com fluxos de informação de alta velocidade é cada vez mais demandada pelo uso em cargas de trabalho como IoT, entre outros, "O'Grady acrescentou.

Desde que foi concebido no LinkedIn, Kafka ganhou suporte de alto nível de empresas como Netflix, Uber, Cisco e Goldman Sachs. Na sexta-feira, houve um novo impulso da IBM, que anunciou a disponibilidade de dois novos serviços baseados em Kafka através de sua plataforma Bluemix.

O novo serviço Streaming Analytics da IBM visa analisar milhões de eventos por segundo para tempos de resposta abaixo de milissegundos. tomada de decisão instantânea. O IBM Message Hub, agora em versão beta, fornece mensagens assíncronas escaláveis ​​e distribuídas de alto rendimento para aplicativos em nuvem, com a opção de usar uma API REST ou Apache Kafka (interface de programação de aplicativos) para se comunicar com outros aplicativos.

fonte aberta em 2011. No ano passado, três dos criadores do Kafka lançaram o Confluent, uma startup dedicada a ajudar empresas a usá-lo em produção em escala.

"Durante a nossa fase de crescimento explosivo no LinkedIn, não conseguimos acompanhar o crescimento do usuário base e os dados que poderiam ser usados ​​para nos ajudar a melhorar a experiência do usuário ", disse Neha Narkhede, um dos criadores de Kafka e co-fundadores da Confluent." O que Kafka permite fazer é mover dados através da empresa e torná-la disponível como um fluxo contínuo de fluxo livre em segundos para pessoas que precisam fazer uso dele ", explicou Narkhede. "E isso faz escala".

O impacto no LinkedIn foi "transformacional", disse ela. Hoje, o LinkedIn continua sendo a maior implantação de Kafka em produção; ultrapassa 1,1 trilhão de mensagens por dia.

A Confluent, por sua vez, oferece software de gerenciamento avançado por assinatura para ajudar grandes empresas a executar o Kafka para sistemas de produção. Entre os seus clientes estão um grande varejista de grandes caixas e "um dos maiores emissores de cartões de crédito dos Estados Unidos", disse Narkhede.

O segundo está usando a tecnologia para proteção contra fraudes em tempo real, disse ela. O Kafka é "um ônibus de mensagens extremamente rápido", que ajuda a integrar rapidamente vários tipos diferentes de dados, disse Jason Stamper, analista da 451 Research. "É por isso que está emergindo como uma das escolhas mais populares."

Além do ActiveMQ e do RabbitMQ, outro produto que oferece funcionalidade semelhante é o Apache Flume, observou ele; Storm e Spark Streaming são semelhantes em muitos aspectos também. No espaço comercial, os concorrentes do Confluent incluem o IBM InfoSphere Streams, o Ultra Messaging Streaming Edition da Informatica eo Mecanismo de Processamento de Fluxo de Eventos (ESP) do SAS junto com o Apama da Software AG, StreamBase da Tibco e Aleri da SAP, Stamper acrescentou. Concorrentes menores incluem DataTorrent, Splunk, Loggly, Logentries, Software X15, Sumo Logic e Glassbeam.

Na nuvem, o serviço de processamento de fluxo Kinesis da AWS "tem o benefício adicional de integração com o armazenamento de dados Redshift e plataforma de armazenamento S3", disse ele.

O recentemente anunciado Listener da Teradata é outro concorrente, e é baseado em Kafka também, observou Brian Hopkins, vice-presidente e principal analista da Forrester Research.

Em geral, há uma tendência marcante em relação aos dados em tempo real, disse Hopkins.

Até 2013 mais ou menos, "big data was all sobre grandes quantidades de dados recheados no Hadoop ", disse ele. "Agora, se você não está fazendo isso, você já está por trás da curva de energia".

Hoje, os dados de smartphones e outras fontes estão dando às empresas a oportunidade de interagir com os consumidores em tempo real e fornecer experiências contextuais. disse. Isso, por sua vez, repousa na capacidade de compreender os dados mais rapidamente.

"A Internet das Coisas é como uma segunda onda de dispositivos móveis", explicou Hopkins. "Cada fornecedor está se posicionando para uma avalanche de dados".

Como resultado, a tecnologia está se adaptando adequadamente.

"Até 2014, era tudo sobre o Hadoop, então era Spark", disse ele. "Agora, são Hadoop, Spark e Kafka. Esses são três pares iguais no pipeline de ingestão de dados nesta moderna arquitetura analítica."

Top