close
Viver de Blog

Apollo | Status

Sem relatos de problemas. Todos os sistemas funcionando.

 

 

….

Incidentes passados:

[02/06/2023]

Tivemos grandes instabilidades no disparo de e-mails, afetando todas as escolas do Apollo. Situação foi restabelecida.

 

Métricas inacessíveis

No momento, nossa API de métricas está sofrendo com algumas instabilidades. Para evitar que essa instabilidade refletisse na experiÊncia de uso dos alunos nós optamos em desativar os gráficos de métricas temporariamente.

Estamos trabalhando para reestabelecer estes gráficos o quanto antes, mas até lá, infelizmente não é possível acompanhar as métricas da sua escola como de costume.

Uma alternativa para este problema é ativar a integração com o Google Analytics nas configurações da sua escola. O Google Analytics não oferece exatamente as mesmas métricas, mas lista diversos outros dados interessantes de acompanhar.

 

[30/07/2020]

Tivemos grandes instabilidades afetando todas as escolas do Apollo. Em breve, mais informações sobre o ocorrido.

[Update 30/07/20 – 19:30]

Grande maioria das escolas já estão estáveis, e operando normalmente. Seguimos com pequenas otimizações e monitorando os novos ambientes.

[Update 30/07/20 – 13:00]

Algumas escolas seguem indisponíveis devido a propagação de DNS pendente da alteração de provider realizada ontem (esse processo costuma levar 24h). O tempo de espera é relativo a cada provedor de internet do usuário. Alguns provedores respondem mais rápido, outros nem tanto.

Além disso, estamos com uma segunda arquitetura de ambiente em desenvolvimento paralelo (ainda mais performatica) para ser utilizada em caso de alguma escola ainda não responder bem, mesmo após migração para o ambiente novo realizada ontem.

[Update 29/07/20 – 21:00]

Aguardando a propagação de DNS das últimas melhorias realizadas. Estamos animados com os resultados dos últimos testes.

[Update 29/07/20 – 15:00]

O isolamento das escolas em ambientes menores tem demonstrado uma boa evolução e seguimos conseguindo estabilizar várias escolas, uma após a outra. Seguiremos trabalhando nessa estratégia hoje até que todas estejam estáveis.

[Update 29/07/20 – 10:00]

Seguimos trabalhando em otimizar os ambientes que não demonstraram estabilidade desde ontem. A expectativa é normalizar estes ambientes (e as escolas que fazem parte) nas próximas horas, assim como já conseguimos com outros durante a madrugada.

[Update 29/07/20 – 1:00]

Conseguimos fazer o split de escolas em diversos ambientes separados para monitorar de forma mais próxima e pontual os tipos de problemas enfrentados. Nesse momento, diversas escolas já se mostraram bastante estáveis, enquanto outras ainda seguem com alguns problemas.

[Update 28/07/20 – 21:00]

Seguimos no esforço de isolar o problema e corrigir.


[Update 28/07/20 – 17:00]

Infelizmente todos os esforços até o momento ainda não resultaram na retomada do ambiente do Apollo de forma estável. Percebemos que algumas escolas são mais afetadas do que outras. Estamos buscando novas abordagens, e temos plano B com backups pré-instabilidade em desenvolvimento.

[Update 28/07/20 – 13:00]

Continuamos trabalhando em retomar o serviço. A hipótese atual é de um excesso de conexões simultâneas, que estaria imundando o Apollo com milhares de requisições por segundo. Estamos investigando a causa e buscando uma correção.

[Update 28/07/20 – 09:00]

Hoje, dia 28, com o aumento do tráfego natural do início do dia voltamos a ter instabilidades, mostrando que o problema pode ter sido mais profundo do que inicialmente identificamos. Continuamos com o time de desenvolvimento trabalhando 100% focado em resolver estas novas instabilidades.

[06 de janeiro de 2020]:

Tivemos um incidente relacionado a nossa funcionalidade nova “Jornada do aluno” que causou instabilidades em diversas escolas. Como era uma funcionalidade que já estava disponível desde o natal sem apresentar problemas, demoramos mais que o normal para isolar a causa. A funcionalidade foi removida temporariamente até que analises mais profundas sejam realizadas.

Agora está tudo normalizado, 100% das escolas operando normalmente.

[07 de agosto de 2019]:

Tivemos instabilidades no acesso de gestores durante a parte da manhã. Problema foi isolado e resolvido. O acesso de alunos não foi afetado.

[15 de maio de 2019]:

Foi reportado que um serviço terceiro que faz a intermediação entre navegadores de internet e servidores apresentou problemas em algumas regiões do Brasil. Este serviço, chamado Cloudflare, está trabalhando para voltar a funcionar 100% o mais breve possível. Nesse meio tempo, diversos sites – entre eles o Apollo – passam por instabilidades para alguns usuários que optam por usar o Cloudflare como seu provedor de DNS.

Mais informações nos artigos abaixo:

14/05/2019 – 19:31: O Cloudflare reportou que todos os incidentes foram resolvidos e o serviço voltou a operar 100%.

14/05/2019 – 15:19: O Cloudflare reporta que corrigiu o problema e está monitorando e aguardando o retorno dos serviços.

14/05/2019 – 14:10: Identificado que a origem do problema é apenas em território Brasileiro, devido a falhas no Cloudflare.

14/05/2019 – 13:55: Instabilidades reportadas e início da investigação.

[8 de fevereiro de 2019]:

08/02/2019 – 23:55: Incidente resolvido, todas as escolas estão 100% operacionais novamente. ✔️

08/02/2019 – 22:40: 80% das escolas já operacionais e a todo vapor. ?

08/02/2019 – 21:38: Algumas escolas já estão operacionais e o progresso para estabilizar o Apollo em 100% das escolas se mostra promissor.

08/02/2019 – 16:15: Continuamos trabalhando com o time reforçado para estabilizar o produto.

08/02/2019 – 13:42: Contratamos uma segunda consultoria (externa à Amazon) para auxiliar na estabilidade dos servidores.

08/02/2019 – 10:00: Novas instabilidades detectadas.

08/02/2019 – 05:50: Problemas de conexão corrigidos e produto novamente estável e 100% operacional.

08/02/2019 – 01:47: Contratação de uma consultoria na própria Amazon, onde hospedamos nossos servidores do Apollo.

07/02/2019 – 16:00: Ainda trabalhando para estabilizar as escolas.

07/02/2019 – 13:00: Instabilidade detectada pelo time de tecnologia e investigações iniciadas.