Tópicos | Hadoop

As tecnologias Hadoop, plataforma para análise de dados de código aberto, desenvolvida pela Apache, estão se tornando fundamentais para ajudar empresas a gerirem grandes volumes de dados, informam os especialistas. Entre as principais organizações que abraçaram a ferramenta estão Nasa, Twitter e Netflix.

A plataforma aberta de computação distribuída ganhou impulso como mecanismo para lidar com o conceito de Big Data, segundo o qual as empresas procuram extrair valor dos dados de seus sistemas de informação.
Usuários corporativos estão adotando tanto as tecnologias da plataforma Hadoop existentes como as que complementam sistemas que desenvolvem.

##RECOMENDA##

A Nasa adota a Hadoop para lidar com grandes volumes de dados em projetos como o Square Kilometer Array, para visualização do céu. Estima-se que este sistema produzirá 700 terabyte de dados quando for construído na próxima década.

Os sistemas vão incluir a Hadoop, assim como tecnologias Apache Object Oriented Data Technology (OODT) para gerenciar grandes volumes de informações explica Chris Mattmann, cientista de computação da agência espacial dos Estados Unidos.

O Twitter é outro grande usuário de Hadoop. “Todos os produtos de relevância [a  partir dos quais oferece recomendações personalizadas aos usuários] têm alguma interação com a Hadoop”, diz Oscar Boykin, um cientista de dados da empresa.

A rede social adota Hadoop há cerca de quatro anos e até desenvolveu o Scalding, um repositório Scala para facilitar tarefas executadas pelo Hadoop MapReduce. A ferramenta foi desenhada sobre o repositório Cascading Java, criado para reduzir a complexidade da plataforma Hadoop.

Os subprojetos da Hadoop incluem a MapReduce, uma matriz de software para o processamento de grandes conjuntos de processamento em clusters; a Hadoop Distributed File System (HDFS), que oferece acesso rápido a dados de aplicações e Common, com utilitários para apoiar outros subprojetos Hadoop.

A empresa de aluguel de filmes Netflix começou a usar o Apache Zookeeper, tecnologia relacionada com Hadoop para gestão de configurações. “Vamos utilizá-lo para todo o tipo de coisas: segurança distribuída, gestão de pedidos e tráfego” para organizar as prioridades do serviço, diz Jordan Zimmerman, engenheiro sênior da  Netflix. “Abrimos o código de um software cliente para o Zookeeper, que escrevi chamado Curador”. O cliente serve como um repositório para programadores.

A rede social Tagged utiliza a tecnologia Hadoop para análise de informações e processa cerca de meio terabyte de novos dados diários, diz Rich McKinley, engenheiro de dados da empresa.

Segundo o engenheiro, a Hadoop está sendo aplicada em tarefas que superam a capacidade da ferramenta Greenplum, comprada pela EMC. “Queremos fazer mais com Hadoop para incrementar a escala”.

Apesar de elogiarem a Hadoop, os usuários apontam deficiências como a fiabilidade e monitoramento de tarefas. McKinley menciona um problema com a latência. “O tempo para obter dados é bastante rápido, mas todos reclamam da grande latência na execução de consultas”. A Tagged utiliza a Apache Hive, outro projeto derivado da Hadoop, para consultas “ad hoc”.

“Isso pode levar vários minutos para obter resultados que, na Greenplum, levaria questões de segundos”. Mas usar a Hadoop é mais barato que Greenplum, ressalva.

O que promete a Hadoop 2.0

A Hadoop 1.0 foi lançada no final de 2011, com tecnologia de autenticação forte via Kerberos e suporte para bases de dados HBase. A versão também impede os usuários individuais de derrubarem clusters, usando restrições sobre a MapReduce.

Mas uma nova versão está no horizonte. O CTO da HortonWorks, Eric Baldeschwieler, forneceu um roteiro de evolução da Hadoop, que inclui a versão 2.0.  A plataforma entrou em fase alfa no início deste ano “e terá a camada de MapReduce recodificada de extremo a extremo, além de uma reescrita completa de toda a lógica de armazenamento e da camada de HDFS “, explica Baldeschwieler, contribuinte frequente para o desenvolvimento da plataforma.

A Hadoop 2.0 estará focada na escala e inovação, baseada na Yarn (próxima geração da MapReduce) e em recursos de federação. A Yarn permitirá aos usuários adicionar os seus próprios modelos de computação para não ficarem presos à MapReduce.

“Temos boas expectativas de que a comunidade invente muitas maneiras de usar a Hadoop”, diz Baldeschwieler. As adoções previstas incluem aplicações de tempo real e algoritmos de aprendizagem artificial, além das operações de armazenamento com capacidade de expansão.

Capacidades de funcionamento o tempo todo da versão 2.0 deverão permitir a constituição de clusters sem tempo de inatividade. A versão prevê também o armazenamento escalável. A Hadoop 2.0 estará disponível dentro de um ano.

Antigo conhecido e aliado das instituições governamentais, o open source já não é mais considerado bicho de sete cabeças pelas companhias, até mesmo as de grande porte, que atualmente, ao menos, avalia o recurso. Atrativos como não ficar preso a um fornecedor, poder realizar melhorias no sistema a qualquer momento e redução de custos têm angariado novos usuários corporativos, impulsionando a penetração no mercado.

Bruno Arrial dos Anjos, analista sênior de Mercado da Frost & Sullivan, inclui na lista de benefícios o poder transformador, de usar comunidades para melhorar os produtos. “Trata-se de um grande impulsionador da colaboração”, completa. O Hadoop, plataforma de código aberto que armazena, gerencia e analisa grandes volumes de dados, diz, é prova disso. “Várias empresas estão contribuindo para que esse projeto avance rapidamente.”

##RECOMENDA##

Segundo ele, open source é assunto importante desde o nascimento da computação e sempre será para o desenvolvimento do setor. “Empresas que conseguem extrair benefícios dele saem à frente. Exemplos são o Facebook e até a Fiat. No Brasil, o governo é forte patrocinador desse tipo de iniciativa, porque levanta a bandeira de utilizar software livre e open source para tornar o mercado mais democrático”, avalia.

Ele diz que o tema, no entanto, ainda gera dúvidas em relação a sua definição e é confundido com software livre e free software. “Open source permite acesso ao seu código-fonte, ele pode estar dentro de produtos de empresas como Oracle e Microsoft. Já o software livre é livre de patentes”, observa. O free software, prossegue, é gratuito e não necessariamente tem o código aberto.

Para ele, o receio em torno da segurança não deve ter peso na escolha de plataformas open source, já que, por existirem diversas comunidades e profissionais dedicados ao desenvolvimento de soluções baseadas no conceito, a localização de vulnerabilidades é mais rápida.

“O mercado tem-se mostrado cada vez mais aberto ao open source. Existem ainda alguns receios quanto à confiabilidade, segurança, evolução das funcionalidades e, principalmente, quanto ao suporte. A companhia quer ter a certeza de que se ocorrerem problemas terá o apoio necessário e com o menor impacto para os negócios”, observa Fernando Lemos, diretor sênior de Consultoria da Oracle do Brasil.

Por isso que, detalha, a estratégia da Oracle para os produtos open source é torná-los melhores, com mais funcionalidades, mais qualidade e performance e suporte adequado. “Começamos nossa jornada com o open source pelo Linux e estamos ampliando o apoio a essas iniciativas nos produtos”, diz.

O investimento no desenvolvimento de soluções para comunidades, como MySQL, GlassFish, Linux, PHP, Apache, Eclipse, Berkeley DB, NetBeans, VirtualBox e InnoBD faz parte do posicionamento da empresa, garante. Recentemente, a fornecedora integrou a distribuição da Cloudera, que inclui o Apache Hadoop, no Oracle Big Data Appliance, solução que processa dados com alta performance.

Para Maurício Pretto, executivo de contas da SUSE Brasil, e Sergio Toshio, country manager do Attachmate Group [holding que agrega SUSE, Novell, NetIQ e Attachmate] no Brasil, a ideia de a segurança ser o elo mais fraco do open source está mudando. “Além disso, empresas como a SUSE reforçam a proteção dessas tecnologias provendo suporte à ambientes de missão crítica, desenvolvendo plataformas e atendendo às demandas específicas”, afirma Pretto.

O open source está no centro das atenções da SUSE no mundo e, de acordo com a companhia, entre os setores que mais investem no modelo estão aviação, varejo e automotivo. O ano passado, segundo Pretto, foi de bons resultados para a companhia. “Hoje, temos 80% de participação no mercado Linux em mainframe no mundo e mais de 70% das instalações SAP rodam em SUSE”, detalha.

Agora, a organização trabalha para expandir soluções open source em cloud, modelo que o executivo acredita que será cada vez mais baseado em padrão aberto. “Uma das grandes mudanças alavancadas pelo open source foi a adoção de padrões abertos em alguns segmentos como banco de dados, virtualização e nuvem”, afirma. “O código aberto está presente em todas as tecnologias usadas hoje desde telefones móveis, até na pesquisa aeroespacial. Existem muitas oportunidades”, assinala.

Os últimos resultados da Red Hat, fornecedora de software open source, mostram que o código aberto é um negócio rentável. A companhia foi a primeira, totalmente dedicada ao open source, a registrar faturamento superior a 1 milhão de dólares no último ano fiscal, encerrado em 29 de fevereiro de 2012. “Trata-se de uma marca significativa para este setor”, sintetiza Jim Whitehurst, vice-presidente de Marketing Global da Red Hat.

A organização encontrou a fórmula adequada para chegar a esse patamar. A companhia oferece subscrição da tecnologia e junto dela o suporte necessário e ainda treinamento. “Fazemos os clientes felizes e com isso eles querem manter o relacionamento”, diz Whitehurst. “O que fazemos é testar e integrar as tecnologias, porque as empresas buscam estabilidade e não querem mexer no código todo dia”, observa.

Segundo ele, o Brasil é um dos grandes usuários das tecnologias da Red Hat e é por isso que a companhia estabeleceu, há seis anos, operação no País, que hoje somam três unidades [São Paulo, Rio de Janeiro e Brasília]. O JBoss, servidor de aplicação de código aberto, tem forte aceitação por aqui, prossegue, e está entre os primeiros países que mais usam o middleware.

“Temos grande penetração no governo, mas estamos muito presentes também nas empresas de serviço financeiro, que tradicionalmente são as que mais têm preocupações com segurança, mas apostam no open source como parte da estratégia”, observa o executivo.

Telecomunicações é outra área que tem buscado plataformas open source, afirma. A intenção da Red Hat é conquistar outros segmentos em solo nacional, como manufatura e petróleo e gás. Para isso, a empresa conta com sua rede de parceiros. “As vendas indiretas representam 50% dos negócios”, contabiliza.

Para ele, tecnologias emergentes, como cloud e mobilidade têm impulsionado o uso de open source, mas as vantagens do modelo estão atraindo empresas, que antes se fechavam para esse mundo. “Tecnologias open source nunca estão trancadas e não é preciso pagar pelo uso de licenças. Além disso, a segurança é aprimorada, já que, por ser aberta os desenvolvedores descobrem rapidamente falhas e tratam de consertá-las prontamente”, lista.

Ele diz que o Linux é o sistema com maior participação nos negócios da companhia, mas não revela números. Virtualização e middleware estão na segunda e terceira posições na lista de interesse dos usuários da Red Hat.

Sobre o futuro do open source, Whitehurst arrisca dizer que é estabelecer maior integração com sistemas operacionais. “Além disso, acredito que open source vai ir além do campo da infraestrutura e migrar para soluções e CRM e ERP”, aposta.

Big data + open source

Para especialistas do setor, plataformas open source estão crescendo no mercado de análises avançadas. Segundo post recente do analista da Forrester James Kobielus publicado em seu blog, à medida que as empresas amadurecem no uso de Hadoop vão migrar para essa nova plataforma de código aberto.

“A adoção corporativa da linguagem open source R saltará neste ano e vamos ver uma convergência maior entre a indústria R e Hadoop, especialmente entre os fornecedores de ferramentas de análise que vão integrar as duas plataformas em suas ofertas”, diz.

Diante dessa tendência, prossegue, e da velocidade em que os fabricantes incorporam tecnologias de código aberto em suas soluções, a Forrester acredita que o Hadoop, por exemplo, será o número da próxima geração de Enterprise Data Warehouse (EDW) na nuvem, e o R será a chave do código na integração com ferramentas de Big Data. “Também esperamos diversos bancos de dados NoSQL open source”, completa.

Leianas redes sociaisAcompanhe-nos!

Facebook

Carregando