As tecnologias Hadoop, plataforma para análise de dados de código aberto, desenvolvida pela Apache, estão se tornando fundamentais para ajudar empresas a gerirem grandes volumes de dados, informam os especialistas. Entre as principais organizações que abraçaram a ferramenta estão Nasa, Twitter e Netflix.
A plataforma aberta de computação distribuída ganhou impulso como mecanismo para lidar com o conceito de Big Data, segundo o qual as empresas procuram extrair valor dos dados de seus sistemas de informação.
Usuários corporativos estão adotando tanto as tecnologias da plataforma Hadoop existentes como as que complementam sistemas que desenvolvem.
A Nasa adota a Hadoop para lidar com grandes volumes de dados em projetos como o Square Kilometer Array, para visualização do céu. Estima-se que este sistema produzirá 700 terabyte de dados quando for construído na próxima década.
Os sistemas vão incluir a Hadoop, assim como tecnologias Apache Object Oriented Data Technology (OODT) para gerenciar grandes volumes de informações explica Chris Mattmann, cientista de computação da agência espacial dos Estados Unidos.
O Twitter é outro grande usuário de Hadoop. “Todos os produtos de relevância [a partir dos quais oferece recomendações personalizadas aos usuários] têm alguma interação com a Hadoop”, diz Oscar Boykin, um cientista de dados da empresa.
A rede social adota Hadoop há cerca de quatro anos e até desenvolveu o Scalding, um repositório Scala para facilitar tarefas executadas pelo Hadoop MapReduce. A ferramenta foi desenhada sobre o repositório Cascading Java, criado para reduzir a complexidade da plataforma Hadoop.
Os subprojetos da Hadoop incluem a MapReduce, uma matriz de software para o processamento de grandes conjuntos de processamento em clusters; a Hadoop Distributed File System (HDFS), que oferece acesso rápido a dados de aplicações e Common, com utilitários para apoiar outros subprojetos Hadoop.
A empresa de aluguel de filmes Netflix começou a usar o Apache Zookeeper, tecnologia relacionada com Hadoop para gestão de configurações. “Vamos utilizá-lo para todo o tipo de coisas: segurança distribuída, gestão de pedidos e tráfego” para organizar as prioridades do serviço, diz Jordan Zimmerman, engenheiro sênior da Netflix. “Abrimos o código de um software cliente para o Zookeeper, que escrevi chamado Curador”. O cliente serve como um repositório para programadores.
A rede social Tagged utiliza a tecnologia Hadoop para análise de informações e processa cerca de meio terabyte de novos dados diários, diz Rich McKinley, engenheiro de dados da empresa.
Segundo o engenheiro, a Hadoop está sendo aplicada em tarefas que superam a capacidade da ferramenta Greenplum, comprada pela EMC. “Queremos fazer mais com Hadoop para incrementar a escala”.
Apesar de elogiarem a Hadoop, os usuários apontam deficiências como a fiabilidade e monitoramento de tarefas. McKinley menciona um problema com a latência. “O tempo para obter dados é bastante rápido, mas todos reclamam da grande latência na execução de consultas”. A Tagged utiliza a Apache Hive, outro projeto derivado da Hadoop, para consultas “ad hoc”.
“Isso pode levar vários minutos para obter resultados que, na Greenplum, levaria questões de segundos”. Mas usar a Hadoop é mais barato que Greenplum, ressalva.
O que promete a Hadoop 2.0
A Hadoop 1.0 foi lançada no final de 2011, com tecnologia de autenticação forte via Kerberos e suporte para bases de dados HBase. A versão também impede os usuários individuais de derrubarem clusters, usando restrições sobre a MapReduce.
Mas uma nova versão está no horizonte. O CTO da HortonWorks, Eric Baldeschwieler, forneceu um roteiro de evolução da Hadoop, que inclui a versão 2.0. A plataforma entrou em fase alfa no início deste ano “e terá a camada de MapReduce recodificada de extremo a extremo, além de uma reescrita completa de toda a lógica de armazenamento e da camada de HDFS “, explica Baldeschwieler, contribuinte frequente para o desenvolvimento da plataforma.
A Hadoop 2.0 estará focada na escala e inovação, baseada na Yarn (próxima geração da MapReduce) e em recursos de federação. A Yarn permitirá aos usuários adicionar os seus próprios modelos de computação para não ficarem presos à MapReduce.
“Temos boas expectativas de que a comunidade invente muitas maneiras de usar a Hadoop”, diz Baldeschwieler. As adoções previstas incluem aplicações de tempo real e algoritmos de aprendizagem artificial, além das operações de armazenamento com capacidade de expansão.
Capacidades de funcionamento o tempo todo da versão 2.0 deverão permitir a constituição de clusters sem tempo de inatividade. A versão prevê também o armazenamento escalável. A Hadoop 2.0 estará disponível dentro de um ano.