00:00Pois é, e para entender mais a fundo o problema enfrentado pela AWS, vamos receber agora ao vivo Rafael Farinazo, que é especialista em produtos digitais.
00:13Vamos lá receber o Rafael aqui nos nossos estúdios. Vamos lá, deixa eu colocá-lo na nossa tela.
00:20Olá, boa noite Rafael, seja muito bem-vindo e obrigada pelo seu tempo por participar aqui conosco.
00:27Boa noite, eu que agradeço o convite, é um prazer estar aqui com vocês para bater esse papo. Obrigado Marisa pelo convite.
00:34Rafael, eu queria começar falando sobre o que a AWS justificou. Ela deu uma série de detalhes técnicos para essa falha.
00:44O que aconteceu exatamente e por que é tão difícil solucionar problemas desse tipo?
00:50Pois é, a Amazon falou ali, como vocês trouxeram super bem, tanto do DynamoDB quanto do DNS,
00:57mas a verdade é que as empresas não costumam entrar muito no detalhe exatamente do que falhou, qual parte do banco de dados, qual parte do DNS.
01:05Primeiro porque são assuntos muito técnicos geralmente para o público, mas segundo porque também às vezes isso expõe alguma coisa,
01:11alguma falha, alguma coisa que talvez eles não tenham resolvido ainda, tenham só mitigado.
01:15Então para evitar ataques, para evitar qualquer tipo de coisa, eles não entram em detalhe.
01:19Mas a gente sabe, como foi explicado aqui, que foi tanto no DNS, que é o que permite encontrar as aplicações dentro ali do data center da região leste dos Estados Unidos,
01:28quanto no banco de dados.
01:29E essa tecnologia de banco de dados é muito usada para respostas rápidas.
01:33Então coisas como pagamentos, check-in de academia, essas coisas,
01:37geralmente você vai usar o DynamoDB, não só para isso, mas também,
01:40e aí por isso acabou afetando de maneira generalizada mesmo.
01:45Agora, Rafael, explica um pouquinho para a gente como que funciona a arquitetura do sistema em novo.
01:51É tudo interligado?
01:53Sim, totalmente interligado, inclusive entre sistemas.
01:57Então dentro de um mesmo sistema, como é o caso da Amazon,
02:00talvez a listagem de produtos, se você for comprar alguma coisa na Amazon,
02:04a listagem de produtos pode estar em uma aplicação,
02:07o pagamento vai estar em outra, a lista de presente vai estar em outra,
02:11essas coisas geralmente são utilizadas em serviços separados.
02:14e eles nem sempre estão no mesmo data center.
02:17Às vezes eles estão até replicados em vários data centers
02:19e quem vai te atender como usuário é o que estiver mais perto de você.
02:23A questão que muitas vezes a gente esquece
02:26é que não só dentro de um sistema está tudo interligado,
02:29como entre sistemas.
02:31Então, por exemplo, um comércio eletrônico que esteja na nuvem do Google
02:34ou da Microsoft,
02:35se eles usam uma tecnologia de pagamento como o PayPal,
02:38que está na Amazon, ele é afetado também.
02:39Ou seja, você tentou fugir, você está lá no Google,
02:42caiu a Amazon, o seu comércio eletrônico não está vendendo nada.
02:46Então é interessante.
02:47A nuvem permitiu que muitos negócios existissem,
02:49porque ela barateia muitos custos em relação a você ter
02:52uma estrutura própria de armazenamento que é super caro.
02:55Então ela permite que vários negócios existam,
02:58mas o efeito é esse.
02:59Você existe, mas você está pendurado ali num lugar que se cair,
03:02cai todo mundo.
03:04Às vezes as pessoas nem imaginam os vários tipos que utiliza,
03:07que todos utilizam esse serviço da AWS.
03:10Agora, em ocasiões assim,
03:13é possível perder algum dado na reconstituição,
03:18digamos assim, do sistema?
03:19Volta tudo ao normal, Rafael?
03:22Olha, possível sempre é.
03:24Nesse caso agora não parece ter sido perdido dado,
03:27porque é mais raro perder dado.
03:30O que vai acontecer de você perder dados,
03:31apesar de ter sido, a gente ouve um problema no banco de dados,
03:34dá a impressão que perderam todos os dados.
03:35Mas não é isso.
03:37Provavelmente o problema foi em criar novos registros no banco
03:40ou ler os registros que já estão lá.
03:42Mas os registros, eles seguem lá.
03:44Agora, pode acontecer?
03:45Pode acontecer.
03:46Já teve vários casos de perda de dados.
03:48Geralmente existem backups.
03:49A própria Amazon incentiva que os clientes da Amazon façam backup.
03:53Os clientes das empresas que hospedam as coisas lá façam backups.
03:56Eles mesmo têm soluções de backups, têm rotineiros,
04:00mas pode acontecer sim.
04:01Não parece ter sido o caso de hoje, porém.
04:03Agora, além desses backups, quais são as saídas no SE que existem
04:08para que isso não aconteça com constância, pelo menos?
04:14O ideal é ter um plano de recuperação de desastre,
04:18que é como a indústria chama mesmo.
04:19Esse plano, ele geralmente, ele vai ter as suas ações
04:22caso aconteça um desastre, caso exista uma falha.
04:26Óbvio que você vai ter ações também para se antecipar aos desastres nesse plano.
04:30Então, por exemplo, uma arquitetura distribuída,
04:32onde o sistema esteja uma parte num data center,
04:34uma parte no outro, é uma solução.
04:36É claro que se cair um e cair bem no data center,
04:39que é essencial para funcionar, o sistema não vai funcionar.
04:42Uma outra forma é você trabalhar com redundância.
04:44Então, tudo que está, por exemplo, lá na Virgínia,
04:46que foi o servidor que caiu,
04:48poderia estar também no servidor da Costa Oeste.
04:50E aí, ele vai servir...
04:52Bom, se deu ruim na Costa Leste,
04:53a gente vai servir a aplicação que tem aqui na Costa Oeste.
04:56Pode ser que fique mais lento,
04:57porque aí a gente vai servir para usuários que estão mais distantes
05:00ou aquele servidor da Costa Oeste vai ter o dobro de acesso,
05:03porque a gente estava dividindo entre os dois,
05:05agora vai tudo para um.
05:06Pode ser que fique mais lento, tem coisas assim.
05:08Mas existem maneiras ali.
05:10Cada empresa vai ter o seu plano de recuperação de desastre,
05:12que vai ser exatamente as ações que a gente vai ter
05:15para evitar que essas coisas aconteçam
05:16e que ações que a gente vai tomar caso um desastre aconteça também.
05:20Tá certo.
05:21Agora, antes de fazer a próxima pergunta para o Rafael,
05:23deixa eu até falar para vocês que estão acompanhando,
05:26vocês sentiram algum problema no dia a dia de vocês?
05:29Comentem aí nos comentários.
05:31Já, já eu vou lá dar uma olhada.
05:33Tá certo?
05:34Agora, Rafael, a gente mostrou na nossa reportagem
05:38que o ano passado nós tivemos uma falha em software da CrowdStrike,
05:43que também, aliás, que gerou um apagão cibernético ainda mais caótico.
05:47Esse tipo de situações, eles deixam alguma lição?
05:54Ou seja, qual é o aprendizado que a gente tem em momentos como esses apagões?
06:01Com certeza.
06:02Eu acho que o aprendizado é que esse plano de recuperação de desastre
06:05precisa ser cada vez melhor.
06:06Mas tem uma coisa que é super difícil para quem trabalha com tecnologia,
06:09que é como que a gente se antecipa a esses riscos do ponto de vista de custo.
06:14Porque esses riscos, eles sempre vão existir,
06:16mas as empresas têm que trabalhar em duas frentes.
06:18Primeiro, reduzir o risco, reduzir a chance dele existir.
06:21Ou, segundo, reduzir o impacto caso ele aconteça.
06:24E, geralmente, para trabalhar tanto em reduzir o risco
06:26quanto em reduzir o impacto, você exige custo.
06:29Como eu falei, você pode ter a sua aplicação igualzinha
06:32em outro servidor lá esperando para ser utilizada ou distribuída.
06:35Você vai pagar o dobro.
06:36Você vai pagar dois servidores.
06:38E o que acontece nesses casos é que, para alguns riscos,
06:40a empresa pensa assim,
06:41bom, se isso aqui acontecer, eu vou perder uma certa quantia de dinheiro.
06:45Mas eu vou gastar o triplo ou dez vezes mais para isso,
06:48para evitar que isso aconteça.
06:49E, às vezes, as empresas acabam tomando decisões ali super difíceis
06:53a respeito de como que eu vou equilibrar o meu custo
06:56para também não parar a minha operação,
06:58mas também eu não posso comprometer a minha operação hoje
07:01colocando custos muito altos.
07:02Então, acho que o aprendizado, na verdade,
07:04é esse balanceamento.
07:06O que vale a pena a gente ter no ar
07:08para evitar que essas coisas aconteçam.
07:10E eu tenho certeza que isso foi pauta
07:12de todas as empresas que foram afetadas hoje,
07:14foi pauta de reunião o dia inteiro.
07:16Com certeza.
07:17As equipes de TI ficaram mesmo focadas nisso,
07:20com toda certeza.
07:21Bom, nós conversamos com Rafael Farinazo,
07:24que é especialista em produtos digitais.
07:26Rafael, muitíssimo obrigada pela sua participação,
07:29por esses esclarecimentos aqui todos,
07:31para nos ajudarem a entender melhor as situações.
07:34Espero encontrá-lo em outras ocasiões.
07:36Obrigada e boa noite.
07:38Obrigado a você e boa noite para todo mundo que está nos acompanhando.
Seja a primeira pessoa a comentar