Pular para o conteúdo principal

Treinamento Big Data Engineer | Semantix Academy

Tipo de vaga: Voluntário

Modelo de trabalho: Remoto

Vaga também para PcD

Descrição da vaga

ESTÃO ABERTAS AS PRÉ-INSCRIÇÕES PARA O NOSSO PROGRAMA DE FORMAÇÃO BIG DATA ENGINEER que será ministrado através do nosso SEMANTIX ACADEMY!


Você possui interesse em aprender as Techs mais atuais do mercado? Chegou o seu momento!

Nossa missão é impactar bilhões de vidas com dados. Venha compartilhar desse sonho conosco! Aqui na Semantix enxergamos que, com dedicação e senso de dono, todos tenham capacidade de crescimento. O Semantix Academy abre um leque de novas possibilidades para aqueles que já estão inseridos, ou desejam mergulhar no universo Big Data.

Os treinamentos serão publicados através da plataforma Semantix Academy Online, sendo disponibilizados do dia 31/01/2022 até 15/04/2021. Às segundas, quartas e sextas-feiras. Vale lembrar que, toda segunda-feira será realizada uma aula ao vivo para sanar dúvidas.

As inscrições estarão abertas do dia 10/01 à 24/01/2022, mas as VAGAS SÃO LIMITADAS. A seleção de alunos será pela plataforma Gupy. Após a inscrição e conclusão do teste, você receberá um e-mail sobre os próximos passos. Caso as vagas já tenham sido preenchidas, fique tranquilo pois, abriremos novas turmas em breve!

Nossas aulas serão ministradas por quem é referência na Semantix. No programa de formação você irá aprender os conceitos Big Data, e durante o treinamento você passará por alguns desafios para auxiliar em sua avaliação.

Ao final da capacitação você poderá ser internalizado pela Semantix, atuando em nossos principais produtos, ou dentro dos nossos clientes. Vem voar com a gente! 🚀


Nosso objetivo é capacitar com qualidade o maior número de pessoas, por isso, as vagas são limitadas e, por enquanto, só é possível se inscrever em um treinamento técnico. Então caso você faça mais de uma escolha, automaticamente algumas inscrições serão canceladas. Fique atento(a) e contamos com você!

Responsabilidades e atribuições

Conteúdo programático:

O Treinamento tem duração de 10 semanas e formado por 6 módulos, com a seguinte divisão:

Big Data Foundations (Semana 1 e 2):

• Conhecimento de ferramentas atuais no mercado de Big Data;

• Criação e funcionamento de um cluster Hadoop para Big Data em Docker;

• Manipulação de dados com HDFS;  

• Manipulação de dados com uso do Hive;

• Otimização de consultas em grandes volumes de dados estruturados e semiestruturados com uso de Hive;

• Ingestão de dados relacionais para o HDFS/Hive, com uso do Sqoop;

• Otimização de importação no Sqoop;

• Exportação de dados do HDFS para o SGBD, com uso do Sqoop;

• Manipulação de dados com HBase;

• Operações com Dataframe em Spark para processamento de dados em batch;

• Uso do Spark SQL Queries para consultas de dados estruturados e semiestruturados.

MongoDB - Básico (Semana 3):

• Entendimento de conceitos e arquitetura NoSQL e MongoDB;

• Instalação de cluster MongoDB através de container e Cloud;

• Manipular coleções, documentos e índices;

• Realizar diversas pesquisas no MongoDB com diferentes operadores;

• Fazer uso das interfaces gráficas MongoExpress e MongoCompass;

• Trabalhar com pipeline de agregações;

• Entendimento de Replicação e shards.

Redis – Básico (Semana 4):

• Entendimento de conceitos e arquitetura NoSQL e Redis;

• Instalação de cluster Redis através de container;

• Manipulação de diversos tipos de estrutura de dados com Redis-CLI;

• Implementar paradigma de mensagens Pub/Sub;

• Configurações básicas de persistência de dados.

Apache Kafka – Básico (Semana 5):

• Entendimento de conceitos e arquitetura do Kafka e da Confluent;

• Instalação de cluster Kafka através de container;

• Gerenciamento de tópicos;

• Produção e consumo de dados através do console;

• Entendimento das guias do Control Center;

• Desenvolvimento de stream com uso do KSQL;

• Aplicação de KSQL Datagen;

• Produção e consumo de dados com uso do Schema Registry;

• Trabalhando com Kafka Connect;

• Custos com Confluent Cloud;

• Otimização de parâmetros;

• Melhores práticas em um cluster Kafka.

Elastic Essential I (Semana 6 e 7):

• Entendimento de conceitos e arquitetura da Elastic;

• Instalação de cluster Elastic através de container;

• Realizar operações de CRUD em índices;

• Gerenciamento de índices;

• Alteração de mapeamento e reindex;

• Desenvolvimento de consultas do tipo term, terms, range, match e multi_match, com uso de bool query;

• Aplicação de analyzers em atributos;

• Desenvolvimento de agregações básicas;

• Ingestão de dados através de beats e logstash;

• Entendimento das guias do Kibana;

Spark - Big Data Processing (Semana 8, 9 e 10)

• Uso do Jupyter Notebooks para a criação de projetos em Spark com Python

• Spark batch intermediario

• Operações com RDD em Spark para processamento de dados em batch;

• Uso de Partições com RDD;

• Operações com Dataset em Spark para processamento de dados em batch;

• Uso de Dataset em Dataframe e RDD;

• Comandos avançados com Dataset;

• Uso do IntelliJ IDEA para a criação de projetos em Spark com Scala;

• Struct Streaming para leitura de dados do Kafka;

• Spark Streaming para leitura de dados do Kafka;

• Otimizações com uso de Variáveis Compartilhadas;

• Criações de User defined Function;

• Configurações de Tunning para o Spark Application.

Requisitos e qualificações

Requisitos mínimos para o treinamento:

• Conhecimento intermediário de pelo menos uma destas linguagens:

  1. Python (Preferível);
  2. Scala;
  3. Java.

• Conhecimento intermediário em SQL;

• Conhecimento básico em Git.


Computador necessário para o treinamento:

• Sistema operacional Linux ou Windows 10 de 64 bits;

• Memória RAM de 8 GB;

• Acesso a internet;

• HD com no mínimo 30 GB de espaço livre.

Informações adicionais

Informações adicionais sobre o Programa de Formação

Plataforma: Semantix Academy Online

Formato: Vídeo aulas, com teoria e exercícios práticos;


Dias e Horário:

• O treinamento estará disponível a partir das 19h do dia 31/01;

• Aulas disponíveis de segunda a sexta as 19h;

• Toda segunda às 19h encontro ao vivo para tirar dúvidas;

• Cada aula tem duração de aproximadamente 2 horas.

•Interação com os alunos e professor através de e-mails e fóruns de dúvidas;

•Carga Horária: 110 Horas (dividido em video aulas e tempo para resolução de exercícios práticos);


Avaliação:

• Após conclusão de cada módulo do treinamento, o aluno irá obter uma insígnia online (https://badgr.com/public/badges/gSyHUws_R8Kiy3lse-v4Ww), caso conclua 100% do módulo e tire uma nota superior a 7 na avaliação.

• O aluno perderá o acesso ao treinamento, nestes casos:

  1. Se não concluir o módulo do treinamento conforme o conteúdo programático;
  2. Se a nota da avaliação do módulo for interior a nota mínima estipulada.

Olá! Que bom que ter você por aqui! 💎

Você já conhece a Semantix?


Somos uma empresa de dados e Inteligência Artificial brasileira e primeira deep tech do país a entrar na Nasdaq, a bolsa de valores de Nova Iorque!


Com o propósito de impactar bilhões de vidas com dados, a Semantix foi fundada em 2010 no Brasil, e hoje, presente em toda a América, destaca-se por suas soluções no modelo Data Driven. Nossa missão é desenvolver produtos e oferecer serviços centrados em dados para acelerar a transformação digital e aumentar o desempenho dos negócios.


Somos referência na oferta de tecnologia em Big Data, Analytics e Inteligência Artificial e desenvolvemos soluções inovadoras e disruptivas para todos os setores da indústria e serviços.


Nos últimos anos fomos eleitos uma das 25 melhores provedoras de soluções em Inteligência Artificial em todo o mundo e não pararemos aqui!


Então, que tal embarcar nessa nave com a gente e impactar bilhões de vidas com dados?



?