Estou me divertindo aprendendo sobre o Hadoop e os vários projetos em torno dele e atualmente tenho 2 estratégias diferentes Estou pensando em construir um sistema para armazenar uma grande coleção de dados do tick do mercado, estou apenas começando com HadoopHDSF e HBase, mas esperando que alguém possa me ajudar Planta uma semente de sistema que não terei que juntar mais tarde usando essas tecnologias. Abaixo está um esboço do meu sistema e requisitos com alguns casos de uso de consulta e uso de dados e, finalmente, meu pensamento atual sobre a melhor abordagem da pequena documentação que eu li. É uma questão de conclusão aberta e, com prazer, gosto de qualquer resposta perspicaz e aceito o melhor, sinta-se livre para comentar sobre qualquer um ou todos os pontos abaixo. - Requisitos do sistema Duncan Krebs - Ser capaz de aproveitar o armazenamento de dados para testes históricos de back-back de sistemas, histórico de gráficos de dados e futuros dados de mineração. Uma vez armazenados, os dados sempre serão de leitura, o acesso rápido aos dados é desejado, mas não é imprescindível no teste de volta. Esquema estático - Muito simples, eu quero capturar 3 tipos de mensagens do feed: Timestamp incluindo data, dia, hora Cotação incluindo Símbolo, timestamp, ask, askSize, bid, bidSize, volume. (Cerca de 40 colunas de dados) Comércio incluindo Símbolos, timestamp, preço, tamanho, troca. (Cerca de 20 colunas de dados) Dados Inserir Casos de Uso - Ou a partir de um fluxo de dados ao vivo ou pesquisa via Broker API Data Query Use Cases - Abaixo demonstra como eu gostaria de consultar logicamente meus dados. Obter-me todas as cotações, negócios, carimbos para o GOOG no 9222014 Obter-me todos os negócios para GOOG, FB ANTES de 912014 E APÓS 512014 Obter-me o número de negociações para estes 50 símbolos por cada dia nos últimos 90 dias. O Santo Graal - Pode MapReduce ser usado para casos de uso como estes abaixo. Gerar meta-dados dos dados do mercado bruto através de agentes distribuídos. Por exemplo, escreva um trabalho que computará o volume de negociação médio em um intervalo de 1 minuto para todos os estoques e todas as sessões armazenadas no banco de dados. Crie o trabalho para ter um agente para cada estocagem que eu digo para o estoque e a sessão para a qual deve calcular esse valor. (É o que o MapReduce pode fazer). No classpath dos agentes posso adicionar meu próprio código util para que o caso de uso acima, por exemplo, possa publicar seu valor em um repo central ou no servidor de mensagens. Posso implantar um agente como um pacote OSGI Crie diferentes tipos de agentes para diferentes tipos de métricas e pontuações que são executadas todas as manhãs antes da negociação prévia ao mercado Comércio de alta freqüência. Também estou interessado se alguém puder compartilhar alguma experiência usando o Hadoop no contexto de sistemas de negociação de alta freqüência. Apenas entrando nessa tecnologia, meu senso inicial é que o Hadoop pode ser ótimo para armazenar e processar grandes volumes de dados de ticks históricos, se alguém estiver usando isso para negociação em tempo real. Eu estou interessado em aprender mais - Duncan Krebs Com base na minha compreensão de seus requisitos , O Hadoop seria realmente uma boa solução para armazenar seus dados e executar suas consultas usando o Hive. Armazenamento: você pode armazenar os dados no Hadoop em uma estrutura de diretório como: Dentro da pasta de horas, os dados específicos para essa hora do dia podem residir. Uma vantagem de usar essa estrutura é que você pode criar tabelas externas na Hive sobre esses dados com suas partições em anos, meses, dias e horas. Algo como isto: chegando à parte das consultas, uma vez que você tenha os dados armazenados no formato mencionado acima, você pode facilmente executar consultas simples. Obter-me todas as cotações, tradições, carimbos para o GOOG no 9222014 Obter-me todos os negócios para GOOG, FB ANTES de 912014 E APÓS 512014 Você pode executar todas essas consultas de agregação uma vez por dia e usar o resultado para apresentar as métricas antes do mercado anterior Negociação. Como a Hive corre internamente, mapreduce estas consultas não serão muito rápidas. Para obter resultados mais rápidos, você pode usar alguns dos projetos de memória como Impala ou Spark. Eu usei o Impala para executar consultas em minhas mesas de colméia e vi uma grande melhoria no tempo de execução para minhas consultas (cerca de 40x). Além disso, você não precisaria fazer alterações na estrutura dos dados. Casos de uso de inserção de dados. Você pode usar ferramentas como Flume ou Kafka para inserir dados em tempo real para Hadoop (e, portanto, para as tabelas de colméia). O Flume é linearmente escalável e também pode ajudar no processamento de eventos durante a transferência durante a transferência. Em geral, uma combinação de múltiplas tecnologias de dados grandes pode fornecer uma solução realmente decente para o problema que você propôs e essa solução seria dimensionada para grandes quantidades de dados. Bem-vindo ao Apachetrade Hadoopreg O que é o Apache Hadoop O projeto Apachetrade Hadoopreg desenvolve software de código aberto confiável , Computação escalável e distribuída. A biblioteca de software Apache Hadoop é uma estrutura que permite o processamento distribuído de grandes conjuntos de dados em clusters de computadores usando modelos de programação simples. Ele é projetado para ampliar de servidores individuais para milhares de máquinas, cada uma oferecendo computação local e armazenamento. Em vez de confiar no hardware para oferecer alta disponibilidade, a própria biblioteca é projetada para detectar e lidar com falhas na camada do aplicativo, oferecendo assim um serviço altamente disponível em um cluster de computadores, cada um dos quais pode ser propenso a falhas. O projeto inclui esses módulos: Hadoop Common. Os utilitários comuns que suportam os outros módulos Hadoop. Sistema de arquivos distribuídos Hadoop (HDFStrade). Um sistema de arquivos distribuídos que fornece acesso de alto débito aos dados do aplicativo. Hadoop YARN. Uma estrutura para agendamento de trabalho e gerenciamento de recursos de cluster. Hadoop MapReduce. Um sistema baseado em YARN para processamento paralelo de grandes conjuntos de dados. Outros projetos relacionados com Hadoop no Apache incluem: Ambaritrade. Uma ferramenta baseada na web para provisionamento, gerenciamento e monitoramento de clusters Apache Hadoop que inclui suporte para Hadoop HDFS, Hadoop MapReduce, Hive, HCatalog, HBase, ZooKeeper, Oozie, Pig e Sqoop. A Ambari também fornece um painel para visualizar a saúde do cluster, como mapas de calor e capacidade de visualizar aplicações MapReduce, Pig e Hive visualmente, além de recursos para diagnosticar suas características de desempenho de maneira amigável. Avrotrade. Um sistema de serialização de dados. Cassandratrade. Um banco de dados multi-mestre escalável sem pontos de falha. Chukwatrade. Um sistema de coleta de dados para gerenciamento de grandes sistemas distribuídos. HBasetrade. Um banco de dados escalável e distribuído que suporta armazenamento estruturado de dados para grandes tabelas. Hivetrade. Uma infra-estrutura de data warehouse que fornece resumo de dados e consultas ad hoc. Mahouttrade. Uma biblioteca escalável de aprendizagem e armazenamento de dados. Pigtrade. Uma linguagem de fluxo de dados de alto nível e estrutura de execução para computação paralela. Sparktrade. Um mecanismo de computação rápido e geral para dados Hadoop. O Spark fornece um modelo de programação simples e expressivo que suporta uma ampla gama de aplicações, incluindo ETL, aprendizado de máquina, processamento de fluxo e computação gráfica. Teztrade. Uma estrutura de programação de fluxo de dados generalizada, construída no Hadoop YARN, que fornece um mecanismo poderoso e flexível para executar um DAG arbitrário de tarefas para processar dados tanto para lote quanto para casos de uso interativos. Tez está sendo adotado por Hivetrade, Pigtrade e outros frameworks no ecossistema Hadoop, e também por outros softwares comerciais (por exemplo, ferramentas ETL), para substituir o Hadooptrade MapReduce como mecanismo de execução subjacente. ZooKeepertrade. Um serviço de coordenação de alto desempenho para aplicações distribuídas. Primeiros passos Para começar, comece aqui: Saiba mais sobre o Hadoop, lendo a documentação. Faça o download do Hadoop na página de lançamento. Discuta Hadoop na lista de discussão. Faça o download do Hadoop. Dirija-se à página de lançamentos para baixar uma versão do Apache Hadoop. Quem usa o Hadoop Uma grande variedade de empresas e organizações utilizam o Hadoop para pesquisa e produção. Os usuários são encorajados a se adicionarem à página wiki do Hadoop PoweredBy. 25 de janeiro de 2017: versão 3.0.0-alpha2 disponível Este é o segundo alfa em uma série de alfas e betas planejadas que levam a uma versão 3.0.0 GA. A intenção é liberar cedo, liberar frequentemente para iterar rapidamente nos comentários coletados dos usuários a jusante. Por favor, note que os lançamentos alfa não possuem garantias de qualidade ou estabilidade da API, e não são destinados ao uso da produção. Os usuários são encorajados a ler a visão geral das principais mudanças que chegam no 3.0.0. As notas de versão alfa2 e as especificações do changelog 857, melhorias e novos recursos desde a versão 3.0.0-alpha2 anterior. 08 de outubro de 2016: Release 2.6.5 disponível Uma versão de ponto para a linha 2.6. Consulte as Notas de versão do Hadoop 2.6.5 para a lista de 79 correções críticas de bugs e, desde a versão anterior 2.6.4. 03 de setembro de 2016: versão 3.0.0-alpha1 disponível Este é o primeiro alfa em uma série de alfas e betas planejadas que levam a uma versão 3.0.0 GA. A intenção é liberar cedo, liberar frequentemente para iterar rapidamente nos comentários coletados dos usuários a jusante. Por favor, note que os lançamentos alfa não possuem garantias de qualidade ou estabilidade da API, e não são destinados ao uso da produção. Os usuários são encorajados a ler a visão geral das principais mudanças que chegam no 3.0.0. O conjunto completo de notas de versão e changelog detalha todas as mudanças desde a versão menor anterior 2.7.0. 25 de agosto de 2016: versão 2.7.3 disponível Uma versão de ponto para a linha 2.7. Consulte as Notas de versão do Hadoop 2.7.3 para a lista de 221 correções de erros e patches desde a versão anterior 2.7.2. 11 de fevereiro de 2016: versão 2.6.4 disponível Versão de ponto para a linha 2.6. Consulte as Notas de versão do Hadoop 2.6.4 para a lista de 46 correções críticas de bugs e, desde a versão anterior 2.6.3. 25 de janeiro de 2016: versão 2.7.2 (estável) disponível Versão de ponto para a linha 2.7. Consulte as Notas de versão do Hadoop 2.7.2 para a lista de 155 correções de erros e patches desde a versão anterior 2.7.1. 17 de dezembro de 2015: versão 2.6.3 disponível Versão de um ponto para a linha 2.6. Consulte as Notas de versão do Hadoop 2.6.3 para a lista de 35 correções críticas de bugs e, desde a versão anterior 2.6.2. 28 de outubro de 2015: versão 2.6.2 disponível Versão de ponto para a linha 2.6. Consulte as Notas de versão do Hadoop 2.6.2 para a lista de 15 correções críticas de bugs e, desde a versão anterior 2.6.1. 23 de setembro de 2015: versão 2.6.1 disponível Uma versão de ponto para a linha 2.6. Consulte as Notas de versão do Hadoop 2.6.1 para a lista de 158 correções críticas de bugs e, desde a versão anterior 2.6.0. 06 de julho de 2015: versão 2.7.1 (estável) disponível Versão de ponto para a linha 2.7. Esta versão agora é considerada estável. Consulte as Notas de versão do Hadoop 2.7.1 para a lista de 131 correções de erros e patches desde a versão anterior 2.7.0. Por favor, veja a seção 2.7.0 abaixo para obter a lista de aprimoramentos ativados por esta primeira versão estável do 2.7.x. 21 de abril de 2015: versão 2.7.0 disponível O Apache Hadoop 2.7.0 contém uma série de melhorias significativas. Alguns deles são mencionados abaixo. NOTAS IMPORTANTES Esta versão diminui o suporte ao tempo de execução do JDK6 e funciona apenas com o JDK 7. Este lançamento ainda não está pronto para uso em produção. Problemas críticos estão sendo solucionados através de testes e adoção a jusante. Os usuários de produção devem aguardar uma versão 2.7.12.7.2. Hadoop Common Support Windows Azure Storage - Blob como um sistema de arquivos no Hadoop. Hadoop HDFS Suporte para trunção de arquivo Suporte para cotas por tipo de armazenamento Suporte para arquivos com blocos de comprimento variável Hadoop YARN Faça a autorização YARN plugável Armazenamento compartilhado compartilhado automático automático de recursos localizados YARN (beta) Hadoop MapReduce Capacidade de limitar tarefas MapReduce em execução de um trabalho Velocidade Up FileOutputCommitter para trabalhos muito grandes com muitos arquivos de saída. Informações completas sobre este lançamento de marco estão disponíveis no Hadoop Releases. 18 de novembro de 2014: versão 2.6.0 disponível O Apache Hadoop 2.6.0 contém uma série de aprimoramentos significativos, tais como: Hadoop Servidor de gerenciamento de chave comum (beta) Fornecedor de credenciais (beta) Hadoop HDFS Heterogeneous Storage Tiers - Fase 2 APIs de aplicativos para armazenamento heterogêneo Nível de armazenamento SSD Memória como uma camada de armazenamento (beta) Suporte para Armazenamento de Arquivamento Dados transparentes em criptografia de repouso (beta) Operando DataNode de segurança sem requerer acesso de raiz Hot swap drive: suporte adicionar mensagens de nó de dados de dados sem reiniciar o nó de dados (beta) AES suporte para mais rápido Criptografia de fio Hadoop YARN Suporte para serviços de longa duração no YARN Service Registry para aplicativos Suporte para atualizações contínuas Recuperações de preservação de recursos do ResourceManager Reinício de preservação de contêiner de NodeManager Nó de suporte de etiquetas durante o agendamento Suporte para reservas de recursos com base em tempo no Capacity Scheduler (beta) Global , Cache compartilhado para artefatos de aplicativos (beta) Suporte a execução de aplicativos nativamente em Contentores Docker (alfa) Informações completas sobre o lançamento desta etapa estão disponíveis no Hadoop Releases. 19 de novembro de 2014: versão 2.5.2 disponível Informações completas sobre o lançamento desta etapa estão disponíveis no Hadoop Releases. 12 de setembro de 2014: versão 2.5.1 disponível Informações completas sobre este lançamento de marco estão disponíveis no Hadoop Releases. 11 de agosto de 2014: versão 2.5.0 disponível Informações completas sobre o lançamento desta etapa estão disponíveis no Hadoop Releases. 30 de junho de 2014: versão 2.4.1 disponível Informações completas sobre este lançamento de marco está disponível no Hadoop Releases. 27 de junho de 2014: lançamento 0.23.11 disponível Informações completas sobre o lançamento desta etapa estão disponíveis no Hadoop Releases. 07 de abril de 2014: versão 2.4.0 disponível Informações completas sobre este lançamento de marco está disponível no Hadoop Releases. 20 de fevereiro de 2014: versão 2.3.0 disponível Informações completas sobre o lançamento desta etapa estão disponíveis no Hadoop Releases. 11 de dezembro de 2013: lançamento 0.23.10 disponível Informações completas sobre o lançamento desta etapa estão disponíveis no Hadoop Releases. 15 de outubro de 2013: versão 2.2.0 disponível Apache Hadoop 2.x chega ao marco da GA Informações completas sobre este lançamento de marco estão disponíveis no Hadoop Releases. 25 de agosto de 2013: lançamento 2.1.0-beta disponível Apache Hadoop 2.x atinge o marco miliário completo Informações completas sobre este lançamento está disponível nas versões Hadoop. 27 de dezembro de 2011: versão 1.0.0 disponível Hadoop alcança 1.0.0 Informações completas sobre este lançamento de marco está disponível no Hadoop Releases. Março de 2011 - Apache Hadoop obtém o melhor prémio no Media Guardian Innovation Awards Descrito pelo juiz como faca do século XXI, Apache Hadoop obteve o prêmio inovador do ano para ter o potencial de mudar o rosto das inovações de mídia. Janeiro de 2011 - Graduados do ZooKeeper O subprojeto Hadoops ZooKeeper se formou para se tornar um projeto Apache de alto nível. Setembro de 2010 - Os subprojetos de Hive and Pig de pós-graduação Hesseops se formaram para se tornarem projetos Apache de alto nível. Maio de 2010 - Avro e HBase Os pós-graduados Hadoops Avro e HBase se formaram para se tornarem projetos Apache de alto nível. Julho de 2009 - Novos subprojetos Hadoop O Hadoop está ficando maior Hadoop Core é renomeado Hadoop Common. MapReduce e o Hadoop Distributed File System (HDFS) agora são subprojetos separados. Avro e Chukwa são novos subprojetos Hadoop. Veja as descrições de resumo para todos os subprojetos acima. Visite os sites individuais para obter informações mais detalhadas. Março de 2009 - ApacheCon EU novembro de 2008 - ApacheCon US julho de 2008 - Hadoop ganha Terabyte Sort Benchmark Hadoop ganha Terabyte Sort Benchmark. Um dos clusters de Yahoos Hadoop ordenou 1 terabyte de dados em 209 segundos, que bateu o recorde anterior de 297 segundos no benchmark de classificação de terabytes de finalidade geral anual (Daytona). Esta é a primeira vez que um programa Java ou de código aberto ganhou. Copyright copy. 2014 The Apache Software Foundation. Apache Hadoop, Hadoop, Apache, o logotipo da pena Apache e o logotipo do projeto Apache Hadoop são marcas registradas ou marcas registradas da Apache Software Foundation nos Estados Unidos e outros países. Outubro 10, 2009 MapReduce definitivamente ganha força, especialmente, mas por Não significa apenas na forma de Hadoop. Depois do Hadoop World. Jeff Hammerbacher de Cloudera me acompanhou rapidamente através de 25 clientes que tirou dos arquivos Cloudera8217s. Fatos e métricas variaram amplamente, é claro: alguns estão em produção pesada com Hadoop e estão intimamente envolvidos com Cloudera. Outros são usuários ativos do Hadoop, mas são muito secretos. No entanto, outros se inscreveram no treinamento inicial do Hadoop na semana passada. Alguns têm clusters Hadoop nos milhares de nós. Muitos têm clusters Hadoop na faixa dos nós 50-100. Outros estão apenas prototipando o uso de Hadoop. E parece ser 8220OEMing8221 um pequeno cluster Hadoop em cada peça de equipamento vendida. Muitos exportam dados do Hadoop para um DBMS relacional muitos outros apenas deixá-lo em HDFS (Hadoop Distributed File System), e. Com o Hive como linguagem de consulta ou exatamente em um caso Jaql. Alguns são nomes familiares, em empresas da web ou de outra forma. Outros parecem ser bastante obscuros. As indústrias incluem serviços financeiros, telecomunicações (apenas Ásia e muito novas), bioinformática (e outras pesquisas), inteligência e muitos web andor advertisingmedia. As áreas de aplicação mencionadas 8212 e estas se sobrepõem em alguns casos. 8212 incluem: Análise de registro e análise de cliques de vários tipos. Análise de marketing. Aprendizagem de máquina e extração de dados sofisticada. Processamento de imagem. Processamento de mensagens XML; rastreamento da correia fotorreceptora ou processamento de texto. Arquivamento geral, incluindo dados relacionaltabulares; Para a conformidade Nós fomos sobre esta lista tão rapidamente que nós não incluímos muitos detalhes em nenhum usuário. Mas um exemplo que se destacou foi de uma empresa de atendimento de anúncios que possuía uma tubulação de agregação 82208, constituída por 70-80 empregos MapReduce. Eu também falei ontem de novo com Omer Trajman da Vertica, que me surpreendeu ao indicar que um número alto de usuários de Vertica8217s estava em produção com o Hadoop 8212, ou seja, mais de 10 dos clientes de produção da Vertica8217s. (A Vertica fez recentemente a sua 100ª venda e, claro, nem todos os compradores ainda estão em produção.) O uso da VerticaHadoop parece ter começado na base de serviços financeiros da Vertica8217s 8212, especificamente na negociação financeira 8212 com análise da web e outras coisas que aconteceram depois. Com base nos atuais esforços de prototipagem, a Omer espera que a bioinformática seja o terceiro mercado de produção da VerticaHadoop, com as telecomunicações em quarto lugar. Não surpreendentemente, o modelo geral de uso de VerticaHadoop parece ser: fazer algo com os dados em Hadoop Dump para Vertica para ser consultado O que achei surpreendente é que os dados geralmente não são reduzidos por esta análise, mas sim explodiram em tamanho. Por exemplo. Uma loja completa de dados de negociação de hipotecas pode ter alguns terabytes de tamanho, mas o processamento de pós baseado em Hadoop pode aumentar isso em 1 ou 2 ordens de grandeza. (Observa-se a importância e a magnitude de 8220cocos8221 dados no processamento de dados científicos). E, finalmente, conversei com a Aster há alguns dias sobre o uso de seu conector nClusterHadoop. Aster caracterizou os usuários do AsterHadoop8217 O uso do Hadoop como sendo da variedade batchETL, que é o caso de uso clássico que um concede ao Hadoop, mesmo que se acredite que MapReduce deve ser comumente feito diretamente no SGBD. Assine nosso feed completo 9 Respostas a 8220Como 30 empresas estão usando Hadoop8221 Vlad em 11 de outubro de 2009 3:34 am Eu fiz alguns cálculos com base nos dados disponíveis publicamente na Internet. O famoso Yahoo Terasort record 8211 classificando 1 TB de dados (na verdade, 10 bilhões de 100 bytes de gravação) em um cluster de servidor Hadoop 3400 em 60 segundos. Omitirei os detalhes do cálculo, mas a CPU média. O uso do disco IO e da rede IO durante a execução foi: 1, 5-6 e 30, respectivamente. Estes não são números exatos, é claro, mas as estimativas baseadas no algoritmo de classificação utilizado, a configuração do cluster8217s, a potência das CPUs do servidor, a capacidade máxima de NIC (1Gb) e a capacidade do IO da matriz de disco SATA. Então, o gargalo é definitivamente rede (acho que não é apenas para classificar, mas para muitos outros problemas). Mas parece que o cluster do Yahoo é subóptimo do ponto de vista do rendimento sustentado máximo ou o Hadoop não pode saturar o link de 1Gb. OK, imagine que não usamos hardware básico, mas servidores mais otimizados e configurações de rede. Como cerca de 2 portas 10Gb NIC por servidor e switch de 128 8211 portas 10GB. Apenas um. Ao aumentar o rendimento da rede de 30MB para 2GBs (2 NIC de porta 10Gb por servidor) seg, podemos reduzir o número de servidores em um cluster por fator de 70 (50 servidores) e ainda manter a mesma execução de 60 segundos. É possível ordenar 2 GB por segundo (20 milhões de registros de 100 bytes) em um servidor. Claro que é. O cluster Yahoo custa aproximadamente 7 milhões. Eu posso construir meu cluster por menos de 1 milhão e não estamos falando sobre consumo de energia e outros custos associados. MapReduce e commodity hardware won8217t poupar dinheiro. Não compre barato. Curt, você sabe quantos desses clientes V estão 8220 na nuvem8221 (ou seja: they8217re executando em V AMIs na EC2) e quantos deles estão naquela 10 ou então você menciona Vlad em 11 de outubro de 2009 10:40 pmMapReduce é Fortemente promovido, por algum motivo, pelo Yahoo e Facebook, mas não pelo Google. O Google (e a Microsoft) já desenvolveram a próxima geração 8220Hadoops8221 (Pregel e Dryad), mas ainda não estão disponíveis para público em geral e não abertos. Mesmo as informações sobre o Pregel são limitadas. Para mim, a situação lembra a União Soviética em meados dos anos 80. Não podendo criar seus próprios supercomputadores, os soviéticos tentaram fazer engenharia reversa para os americanos (Cray, etc.). Você pode reproduzir o que já foi feito, mas você sempre está atrasado. UPD. Dryad pode ser baixado do site MS, mas apenas para pesquisa acadêmica. RC em 12 de outubro de 2009 3:46 am É Dryad muito melhor do que Hadoop Em caso afirmativo, quais são as melhorias Vlad em 12 de outubro de 2009 3:53 pm do Livro Branco de Dryad: 8220 A diferença fundamental entre os dois sistemas (Dryad e MapReduce) é essa Um aplicativo Dryad pode especificar uma DAG de comunicação arbitrária em vez de exigir uma seqüência de operações mapdistributesortreduzir. Em particular, os vértices do gráfico podem consumir múltiplas entradas e gerar múltiplas saídas, de diferentes tipos. Para muitas aplicações isso simplifica o mapeamento do algoritmo para a implementação, nos permite construir uma biblioteca maior de sub-rotinas básicas e, juntamente com a capacidade de explorar canos TCP e memória compartilhada para bordas de dados, pode trazer ganhos de desempenho substanciais. Ao mesmo tempo, nossa implementação é geral o suficiente para suportar todos os recursos descritos no papel MapReduce.8221 Andrew S em 19 de outubro de 2009 7:54 pmVlad, a diferença é que os soviéticos não têm uma fonte aberta por trás deles. Um padrão mais comum na história recente foi: 1. A solução de software proprietário surge 2. Uma boa solução de código aberto com recursos similares sai mais tarde. 3. A solução de código aberto ganha grandes apoiadores, desenvolvedores de topo, empresas de tecnologia de ponta, líderes acadêmicos 4. Solução de código aberto eclipsa solução proprietária no uso por causa da disponibilidade fácil e documentação 5. Solução proprietária desaparece porque se torna rentável mudar para abrir Solução fonte. Hadoop está em algum lugar (3) e parcialmente em (4). 8230 Nada disso é incompatível com levantamentos anteriores de casos de uso de Hadoop. 8230 8230 seja o diretor-gerente do Bank of Americas para grandes dados e análises. Há um ano atrás, a Vertica indicou que cerca de 10% de seus clientes estavam em produção com a Hadoop, uma tendência liderada por seus clientes de serviços financeiros. No 8230 Procure nossos blogs e papéis brancos. Os blogs do Monash Research DBMS 2 cobrem gerenciamento de banco de dados, análise e tecnologias relacionadas. Text Technologies abrange a mineração de texto, pesquisa e software social. O Strategic Messaging analisa a estratégia de marketing e mensagens. O relatório Monash examina questões de tecnologia e políticas públicas. Memórias de software conta o histórico da indústria de software. Consultoria de usuário Construindo uma lista curta Refinando seu plano estratégico. Podemos ajudar. Assessoria de vendedor Nós contamos aos fornecedores o que está acontecendo - e, mais importante, o que eles devem fazer sobre isso. Destaques da Monash Research
No comments:
Post a Comment