Reportagem: Miguel Sá | Fotos: Divulgação / Acervo
Em 2021, foi lançada no streaming a série documental The Beatles: Get Back. Além da mobilização natural que a banda causa até hoje em lançamentos que a envolvem, um outro "personagem" ganhou destaque nas reportagens sobre o documentário: a Inteligência Artificial (I.A.). Isso porque boa parte dos diálogos e instrumentos que ouvimos no documentário não eram audíveis no material original.
A equipe de áudio do documentário construiu um sistema de I.A. e o alimentou com um banco de dados de imagem e áudio dos Beatles para que fosse possível reconhecer e separar – ou “desmixar” – os elementos de áudio presentes no material original. Dessa forma, foi possível reconhecer e tratar vozes e instrumentos para que fossem remixados de forma audível, trazendo um novo panorama do processo criativo da banda.
Na mesma época, começaram a se tornar conhecidas ferramentas como o ChatGPT e outras capazes de criar textos, imagens e músicas emulando as capacidades criativas do ser humano. A partir daí, os debates sobre as facilidades trazidas pelo uso das ferramentas de I.A., e os dilemas e debates éticos relacionados ao mercado de trabalho, direitos autorais e os limites de atuação dessas máquinas, tornaram-se, cada vez mais, parte do nosso dia a dia.
O que é I.A.
De acordo com John McCarthy (1927-2011), pesquisador de ciência da computação reconhecido como um dos fundadores do termo original em inglês Artificial Intelligence, isso se refere à “ciência e engenharia de fabricação de máquinas inteligentes, especialmente programas de computador inteligentes”.
A definição está em um artigo em formato de pergunta e resposta disponível no site da Universidade de Stanford (EUA), à qual McCarthy era ligado. Mais definições que percorrem o mesmo caminho, mas com variações, estão disponíveis no mesmo site ou em outros, como o da gigante de computadores IBM, que conceitua a Inteligência Artificial como “a tecnologia que permite aos computadores simular a inteligência e as capacidades humanas de resolução de problemas”.
Também no site da IBM, há uma linha do tempo que começa em 1950, com a publicação da obra Computing Machinery and Intelligence – artigo de Alan Turing considerado a fundação da ciência da computação – e vai até 2023, apresentando um panorama resumido do desenvolvimento da tecnologia, além dos diferentes tipos de Inteligência Artificial e de aprendizado de I.A..
Tipos de Inteligência Artificial
O aprendizado de um sistema de Inteligência Artificial pode acontecer por meio de aprendizado de máquina e deep learning. Nos dois formatos, são desenvolvidos algoritmos que simulam os processos decisórios humanos usando as informações para traçar cenários e tomar decisões que se aprimoram. Embora os processos estejam ligados, há diferenças.
No aprendizado automático, as diferenças entre os dados usados para o aprendizado são indicadas por humanos. No deep learning (aprendizado profundo), as informações podem ser colocadas para a máquina de forma menos estruturada, possibilitando menos interferência humana e o uso de mais quantidades de dados.
Os modelos generativos de I.A. – estes que estão causando impressões profundas em todas as atividades humanas – são desenvolvidos a partir do deep learning. Esses modelos podem, por exemplo, pegar as informações de um manual de equipamento, de uma música ou de uma fotografia e usá-las para, conforme descrito no site da IBM, codificar “(...) uma representação simplificada dos seus dados de treinamento (...) para criar um novo trabalho semelhante, mas não idêntico, aos dados originais”.
Inteligência Artificial no áudio
O fato é que, desde que começaram a se tornar mais conhecidas ferramentas como o ChatGPT e outras capazes de criar textos, imagens e músicas emulando as capacidades criativas do ser humano, os debates sobre as ferramentas e os dilemas éticos e legais sobre o mercado de trabalho, direitos autorais e os limites de atuação dessas máquinas se tornaram, desde então, cada vez mais parte do nosso dia a dia.
É sobre tudo isso que a Revista Backstage conversou com o engenheiro de masterização Carlos Freitas, o consultor de áudio Carlos Ronconi, o produtor musical e sócio da gravadora Trama e do estúdio Trama/Na Cena João Marcello Bôscoli, o especialista em pesquisa na área de inovação da Rede Globo Luiz Fernando Kruszielski, o engenheiro de áudio e professor Rodrigo Lopes e o responsável pelo estúdio Trama/Na Cena Ricardo Câmera.
Rodrigo Lopes: Inovação ainda é privilégio humano
O engenheiro de som e professor, formado em engenharia de áudio e produção pela Berklee College of Music, é autor do livro Arte no Áudio: Gravação e Mixagem, no qual coloca as atividades do engenheiro de som no contexto da linguagem musical. Já há algum tempo, ele acompanha a evolução da inteligência artificial no campo da música e áudio. “Ela faz uma análise a partir de uma base de dados gigantesca e, dependente dessa base, seleciona quais seriam as respostas que estatisticamente teriam mais chances de serem usadas. E aí ela vai sendo treinada e vai melhorando as respostas, mas ela não entende o sentido. Ela faz simplesmente um cálculo estatístico, é uma máquina ainda. Não temos uma inteligência 'artificial' que consiga entender o sentido. Então, em alguns momentos, pode até acertar muito bem. Mas, em alguns momentos, pode errar feio também. A inteligência artificial entende padrões, mas não tem uma linguagem simbólica por trás. Mas eu acho que é uma ferramenta interessante, sim”, determina.
Questionado sobre os riscos que a IA traz ao mercado de trabalho, Rodrigo traz a Regra de Pareto: “Qualquer problema, você resolve 80% dele com 20% de esforço total. Os 20% restantes, você vai precisar de 80% de esforço para resolver. Em qualquer coisa que a gente faz, tem uma distribuição desigual de energia. Existe um mercado que vai pagar 20% do valor e vai querer 80% do resultado, e, para esse mercado, resolve. Mas sempre tem as pessoas que estão buscando a excelência. Tem coisas na criação de discursos, na contação de histórias, musicalmente falando, que eu acho que a inteligência artificial simula bem, mas o toque humano, o pulo do gato, ou o pulo do ser humano (risos), esse não tem, né? Hoje em dia, temos muitos mercados com exigências diferentes, tanto estéticas quanto técnicas. Até entre as plataformas de streaming, temos padrões técnicos diferentes. Que dirá estéticos”, afirma.
Ainda que reconheça que a I.A. pode atender a mercados de baixo custo e baixa exigência estética, o engenheiro de som acredita que esses mercados não são seus concorrentes diretos. Na opinião dele, a IA pode abrir novos mercados para produtores que trabalham em um nicho de menor valor, mas não substitui profissionais que buscam a excelência. “É até possível que alguns mercados, por exemplo o mercado de publicidade, eu acredito que para alguns a inteligência artificial resolve. Esses mercados que pagam menos e utilizam I.A. não são o meu público. É outro mercado.”
O músico e engenheiro de som pensa que a inovação musical vem da capacidade de quebrar padrões e criar novas combinações e contextos, algo que a I.A. ainda não consegue alcançar. “A criatividade humana envolve quebrar padrões e criar regras novas. A I.A. pode simular, mas sempre segue padrões predefinidos. Independentemente de serem sons gravados (especialmente para uma produção) ou sampleados, o trabalho do criador é sempre colocar esses elementos em um novo contexto e descobrir novas relações entre eles. O trabalho é o mesmo. O importante é a capacidade humana de criar relações entre esses sons que não foram pensadas antes. A I.A. é uma ferramenta, mas a capacidade de criar relações novas e significativas é uma característica exclusivamente humana”, conclui.
Carlos Ronconi e a importância de se manter informado
Para o consultor Carlos Ronconi, que por mais de 30 anos trabalhou em alto nível nos áudios de programas da TV Globo, como o Som Brasil ou o carnaval na Sapucaí, o que acontece é uma automatização cada vez maior de funções menos criativas dentro do áudio, e isso ocorre desde o início do desenvolvimento do digital. “Isso possibilitou que o áudio fosse separado de artefatos do ruído, permitindo que fosse mais fácil melhorar o áudio. Antigamente, no Sonic Solutions, o operador tinha que saber o que era ruído, o que era áudio e separar um do outro. Essa função está passando para a máquina. O processo está ficando um pouco mais automatizado, o que dá tempo para fazer outras coisas mais criativas. A I.A. me dá a base para poder começar a trabalhar no resto. Você aproveita melhor o tempo para fazer uma coisa mais criativa”.
O consultor, que dá treinamentos na área do áudio com a empresa Link Lab Pro, chama atenção para o fato de que o desenvolvimento da I.A. não aconteceu da noite para o dia, apesar da sensação de que houve um salto nos últimos tempos. “O Machine Learning foi o começo. A hora que aquilo começou a funcionar, começou a se aplicar um pouco mais. O Chat GPT não deixa de ser um Machine Learning, uma máquina que aprendeu milhares de textos em vários lugares. E aí, quando você dá um assunto, ela vai lá e faz o texto para você. Chegou naquele ponto da curva no qual você percebe melhor o que está ocorrendo. Agora, com a utilização da I.A. em outras áreas, o negócio veio mais à tona e todo mundo está falando. E aí as pessoas começaram a notar o que dá para fazer. Por exemplo, na parte mais musical, você tem o Logic Pro com o desmembramento, né? Você joga tudo lá dentro com bateria, a música mixada, e ele vai e separa bateria, guitarra, baixo, voz. Tem site que é tipo um Chat GPT para música. Você entra nele e descreve: quero um tema de três minutos de jazz baseado em um solo de trompete com sax, baixo acústico e piano. Ele gera a música".
Claro que esse tipo de ferramenta gera debates sobre a atribuição que fica para o profissional humano – no caso do áudio, o engenheiro de som – se a I.A. chegar a um ponto em que se pode entregar os instrumentos para uma máquina e ela fazer uma mixagem. “Eu acredito que sempre vai ter um cara por trás. Sempre vai ter que ter a pessoa fazendo, entendeu? E isso por mais automáticos que sejam os processos. A criatividade é a grande diferença. Por isso que eu digo: as ações repetitivas vão ficar para a I.A. Por exemplo: afinar. Isso é um trabalho entediante para muita gente”.
A velocidade com que as ferramentas evoluem é rápida. Por isso, em treinamentos e workshops que ministra em diversas empresas, Ronconi chama atenção para que as pessoas se mantenham informadas sobre o que acontece com as novas ferramentas de I.A. “Sempre destaco o valor do ser humano, mas eu também falo o seguinte: tem que ficar de olho no que está acontecendo, porque às vezes você fica tentando criar um processo que alguém já criou e você está ali sofrendo por falta de informação. A primeira coisa é se informar, sair correndo atrás de tudo o que tem, que existe, que pode acontecer, estudar bastante, ler manual... Tudo isso é fundamental”.
Carlos Freitas: em contato direto com os avanços mais recentes
O engenheiro de masterização, dono também do estúdio Classic Master, hoje sediado em Miami, nos EUA, está bem ambientado no uso de ferramentas de inteligência artificial, tanto por conta dos trabalhos de masterização e restauração como por causa das pesquisas com mixagem de áudio imersivo na Spatial 9, empresa da qual é sócio. “Eu me juntei aos meus sócios, Luiz e Alan, combinando suas expertises em tecnologia e inteligência artificial com uma paixão profunda por música. Eles visualizaram no áudio imersivo uma oportunidade única de expandir os limites da produção musical, integrando arte e tecnologia. Essa visão permite explorar novas dimensões criativas na masterização e mixagem de áudio imersivo, alinhando-se perfeitamente com minha paixão por experiências audiovisuais inovadoras”, entusiasma-se Carlos Freitas.
Já há algum tempo ele percebe a entrada de ferramentas de I.A. de forma consistente em seu trabalho. “Começou a influenciar a indústria da música há vários anos, inicialmente por meio de ferramentas básicas de automação e geração algorítmica de música. Com o tempo, seu papel se expandiu, oferecendo capacidades mais sofisticadas na produção musical, como a separação de instrumentos de um arquivo original estéreo e plug-ins de ajuda para mixagens. Eu percebi o potencial da IA quando ela começou a agilizar processos técnicos na masterização. Esse avanço me permitiu dedicar mais tempo aos aspectos criativos da produção musical, que é onde realmente gosto de imprimir meu toque pessoal”, diz o dono do Classic Master e sócio da empresa Spatial 9.
A título de comparação didática, Carlos Freitas lembra de quando, nos anos 1990, fez a restauração do áudio de gravações de Orlando Silva para uma caixa especial de CDs. “Naquela época, levei três meses para concluir. Hoje, provavelmente faria em um dia. Recentemente, restaurei o álbum do João Gilberto, Relicário. Removi sons de tosse, microfonia... Havia um problema em uma música em que o canal esquerdo parou de funcionar, e eu reconstruí tudo. Essas ferramentas são realmente espetaculares. São difíceis de usar? Sim, mas, para alguém experiente como eu, elas tornam o trabalho muito mais rápido, talvez cinco dias mais ágil”, comemora.
Na masterização, Freitas lista uma série de vantagens oferecidas pelas ferramentas de I.A., como detecção de frequências indevidas, sugestão de equalizações e retirada de ruídos. “Um exemplo é o Izotope RX. Ele utiliza várias ferramentas, como plug-ins que sugerem equalizações. Alguns plug-ins detectam ressonâncias muito fortes na mixagem. Muitas vezes fico ouvindo repetidamente para identificar essas ressonâncias, mas, com esses plug-ins que as detectam automaticamente, eles já indicam o que precisa ser feito. Assim, você faz os ajustes ou, pelo menos, parte de uma base. Questões como ressonância e fase são detectáveis auditivamente, mas, ao passar por um plug-in, você acaba tendo uma visão ‘raio-X’ da música e resolve o problema de forma muito mais rápida. Outra função interessante são os redutores de ruídos. Eles oferecem soluções automáticas para defeitos. E, hoje em dia, quase todos os compressores têm o release automático, que analisa o pico alguns microssegundos antes e determina a velocidade do release. Isso é um tipo de Inteligência Artificial, e já existe há algum tempo. Atualmente, é possível fazer uma masterização utilizando certos parâmetros. O Elevate, da Eventide, é outro exemplo de programa que utiliza Inteligência Artificial. Ele faz uma varredura na música e sugere algumas ações.”
Para Carlos Freitas, ainda haveria um caminho grande até as ferramentas de I.A. “substituírem” o ser humano. “É praticamente impossível você criar um sistema que reproduza 100% o que eu faço, por exemplo. Mas o ponto principal é o seguinte: a base da Inteligência Artificial, o que é? É dado. Então, se você alimentar o sistema com 20 músicas, ele começa a aprender sozinho com base nelas, mas, como está limitado a essas 20, chega uma hora que ele começa a usar as próprias referências do que ele mesmo criou. O negócio começa, então, a se descaracterizar a tal ponto que você não reconhece mais se aquilo é ou não uma música, entendeu? Porque não é exato, né? São zeros e uns. Por isso, você precisa constantemente alimentar o sistema com algo novo. E o que é algo novo? É algo criado por pessoas”, indica.
O engenheiro de som aprofunda a discussão, demonstrando que a I.A. precisa sempre estar sendo alimentada de dados para manter o acerto. “Imagina o seguinte: você pega 200 cartas de amor e as coloca no sistema. Ele vai criar uma carta maravilhosa, aproveitando o melhor dessas 200 cartas. A partir dessas, ele gera mil cartas. Depois, ele vai usar essas mil cartas, que foram feitas a partir das 200 originais, para gerar mais, digamos, 20 mil. Só que, depois de um tempo, não são mais cartas de amor, entendeu? O negócio se perde. Você precisa estar sempre alimentando o sistema, se não ele para de funcionar corretamente.”
As conclusões do engenheiro de masterização vêm também da oportunidade que teve de verificar diretamente as limitações de ferramentas automáticas de masterização. “Fiz um trabalho para uma empresa que queria saber minha opinião sobre essa questão de masterização feita por sistemas automatizados. Testei todos eles. Para isso, peguei dez que eu mesmo tinha masterizado, passei pelos sistemas deles e comparei com o meu trabalho. Nenhuma chegou perto do que fiz. Vou te explicar o porquê: a música brasileira é muito complexa. Tinha uma música da Maria Rita com surdo e cavaquinho... A master feita pelo sistema eliminou o surdo, tirou todo o grave. No samba, o surdo é 3 ou 4 dB mais alto do que seria em uma bateria comum. Para o sistema, do jeito que ele foi treinado... Ficou um show de horrores aquela master feita por I.A. A conclusão que cheguei foi que o grande problema da Inteligência Artificial é a aplicação em larga escala. Ela nunca será boa em tudo porque a base de dados não foi treinada para todas as possibilidades. Cada música e estilo têm uma instrumentação e mixagem diferentes. Por isso, acredito que I.A., no caso do áudio, substituir o engenheiro de som para fazer mixagem automaticamente é impossível. Não vejo isso como uma realidade. No entanto, se você tiver um sistema que checa espectros e detecta que há um excesso de médio-grave, quase gerando microfonia e corrige isso, aí sim vejo a I.A. sendo útil. Isso é algo real: um defeito que pode ser corrigido. Acho que sistemas para detectar erros óbvios, mais fáceis de treinar, vão surgir aos montes. Agora, a subjetividade de adicionar mais ou menos reverb... Não sei qual é sua opinião sobre isso, mas eu, pessoalmente, não consigo ver I.A. resolvendo essa parte. Não precisamos temer a I.A. Ela é uma ferramenta para expandir o processo criativo para novas dimensões que não seriam possíveis de outra forma”, reflete Carlos Freitas.
João Marcello Boscoli e a visão do produtor musical que também é empresário
Os primeiros contatos de João Marcello com ferramentas de I.A. aconteceram em 2008, mas elas começaram, efetivamente, a fazer parte do cotidiano a partir de 2018. O produtor musical deixa bem claro que não há um bom estúdio, hoje em dia, que não utilize a I.A. de alguma forma. No entanto, mesmo que a I.A. possa tomar diversas decisões autônomas, ainda é necessário que uma pessoa controle o processo. “Na verdade, I.A. é um conjunto de tecnologias que pode realizar tarefas variadas, desde restaurar uma entrevista com áudio deficiente até criar músicas inteiras sem a necessidade de músicos. O que a gente chama de inteligência artificial é um empacotamento de vários tipos de natureza de uso sob um único nome."
O produtor usa amplamente os recursos de I.A. nos trabalhos da gravadora Trama, tanto nos acervos de entrevistas com nomes como Tom Zé e Elza Soares, quanto em relançamentos de Elis Regina, para remover chiados e saturações (mas com uma regra rígida, definida em família, de nunca usar auto-tune na voz dela). Efetivamente, a I.A. acelerou os processos em estúdios e teve consequências até nas cobranças por hora de trabalho. “O tempo para fazer uma restauração de áudio, em alguns casos, reduziu de três dias para meia hora, o que significa menos horas de trabalho faturáveis para o estúdio."
João Marcello acredita que, em breve, será possível pedir para que uma I.A. mixe uma gravação de acordo com as preferências do usuário, como já é possível na masterização, e demonstra preocupação com o impacto da I.A. no setor de áudio e música. “Uma coisa é o engenheiro de som usar a I.A. para identificar uma frequência sobrando em um determinado momento, quando tocam vários instrumentos, e filtrá-la para que aquela equalização que ele decidiu para a voz não seja prejudicada. Outra coisa é a I.A. escrever um texto e usar um banco de vozes para fazer a locução sem pagar ninguém. Aqui no estúdio utilizo inteligência artificial para restaurar o áudio de entrevistas de artistas como Tom Zé e Elza Soares.”
O produtor musical acredita que é fundamental proteger o processo humano em um contexto de uso cada vez maior de I.A. “É uma coisa que precisa ter regras claras, rígidas. Considerando meu estúdio, se eu decidir dispensar os engenheiros de som que fazem a mixagem, optando por realizar tudo sozinho com inteligência artificial, isso seria problemático. Para mim, o limite é o controle humano. Enquanto as ferramentas forem operadas por seres humanos, elas são bem-vindas. A questão não é se posso usar uma bateria eletrônica, mas sim quem a programa. A bateria eletrônica, o auto-tune vão até certo ponto, mas ainda assim você precisa ter um cantor cantando e um cara afinando.”
João Marcello vai além, entrando no debate sobre a criação musical e falando sobre os artistas virtuais que já pululam na cena pop. “Eu não estou dizendo que o Miguel e o João com 17 anos não podem entrar num banco de looping e usar. Eu sou a favor de dois moleques, como nós já fomos, que estão sem grana para gravar com uma banda no estúdio comprarem um loop e usarem. O que me preocupa é não precisar mais nem do Miguel nem do João, porque o cara da gravadora vai criar virtualmente dois moleques que vão dar 1 milhão de entrevistas se precisar, ou fazer 600 faixas em um segundo.”
Ricardo Camera e a Inteligência Artificial na restauração e atualização do som de acervos
Para explicar a diferença entre ferramentas com e sem uso de I.A., Ricardo Camera traz o exemplo do compressor multibanda sem I.A. “Ele atua com base nas definições que você estabelece, como, por exemplo, a faixa de amplitude em que o efeito deve começar a agir. Já a Inteligência Artificial, em contraste, pode sugerir automaticamente o uso de um equalizador em uma determinada faixa de frequência, com base na análise da música. Ela aponta frequências específicas que precisam de ajuste, algo que você talvez não tivesse considerado.”
Camera ressalta a capacidade de entender as situações e tomar algumas decisões da I.A. "Acredito que a masterização foi a primeira área em que a inteligência artificial realmente se estabeleceu. A masterização é um campo muito fértil para a aplicação de I.A. Um exemplo disso é o sistema Landr, que começou como um site onde você enviava uma música para ser masterizada por I.A. a um custo acessível. O que ele faz? Ele analisa o estilo da música, identifica características da onda sonora e as compara a modelos previamente aprendidos para tomar decisões sobre o espectro de frequência, balanceamento e dinâmica, ajustando o som para se alinhar a esses modelos.”
No trabalho com o acervo da gravadora Trama, o engenheiro de som lança mão de todos os recursos para melhorar o som dos arquivos, que podem ser apenas de áudio ou audiovisuais. “O Isotope tem um módulo chamado Master Rebalance, que uso bastante no meu trabalho. Ele consegue rebalancear elementos como voz, baixo e bateria em uma faixa. Em uma onda sonora complexa, a I.A. é capaz de identificar esses elementos por suas frequências. Porém, instrumentos como guitarra e teclados ainda são mais difíceis de isolar, algo que pode melhorar com futuras atualizações.”
Por conta dessas ferramentas, Ricardo conseguiu, inclusive, atender algumas demandas bem específicas, como quando trabalhou com o produtor musical Otávio de Moraes no filme Meu Nome é Gal. “Durante anos, me perguntavam se dava para separar a voz de uma música já mixada, e a resposta era sempre 'não'. Tentávamos truques como mudar a fase, mas os resultados eram insatisfatórios. A Inteligência Artificial mudou esse cenário, tornando essa separação possível. Um exemplo é o site Moises, que muitos músicos usam para isso. Ele consegue identificar e isolar elementos em faixas complexas, o que ajuda tanto na criação de trilhas sonoras quanto na produção musical. No filme sobre Gal Costa, por exemplo, trabalhamos com a voz dela extraída de fonogramas originais, já que os multitracks não estavam disponíveis. Utilizamos a I.A. para isolar a voz e encaixá-la nas novas trilhas gravadas (com arranjos de Otávio de Moraes), e o resultado foi impressionante. Em alguns momentos, a atriz Sophie Charlotte (que interpretou Gal Costa no filme) cantava no lugar de Gal, e em outros preferimos usar a voz original da cantora.”
Camera também narra outro caso já clássico: o lançamento, em 2024, de Para Lennon e McCartney (Milton Nascimento e Fernando Brant) com Elis Regina cantando junto com um arranjo feito nos dias atuais. O mesmo registro já havia sido utilizado em outra gravação póstuma, pouco depois da morte da cantora, mas a Trama tinha o arquivo com a voz sem o acompanhamento deste álbum. “A Rádio Bandeirantes queria lançar uma gravação inédita, mas a versão que encontramos tinha um vazamento de piano tocado por César Camargo Mariano. A primeira coisa foi isolar a voz da Elis do vazamento. Utilizamos a I.A. e um software da Cedar para isolar a voz da Elis e remover o vazamento do piano. O resultado foi um trabalho de restauração que trouxe a gravação para os padrões atuais.”
Ainda que seja um entusiasta dos recursos fornecidos pela I.A., Camera não deixa de observar que, em trabalhos específicos, com parâmetros bem definidos, como publicidade e broadcast, a I.A. possa causar um certo impacto no mercado de trabalho. “Se o produtor puder cortar custos, ele vai cortar. Vi isso acontecer quando, nos anos 2000, surgiram empresas que faziam trilhas sonoras genéricas, as chamadas 'trilhas brancas'. Por uma fração do preço de uma trilha convencional, o cliente conseguia uma trilha. O que ele não tem é aquela coisa feita exclusivamente para ele. Também não é Inteligência Artificial, mas a automix já existe há muito tempo. Tem esquemas criados por teatros na Broadway que fazem com que aqueles milhares de microfones sem fio liguem e aumentem conforme o momento da encenação, e a Inteligência Artificial é algo a mais. Mas isso é mais para, por exemplo, publicidade, jogos de futebol, broadcast... Aquele cara que fica no switcher será o primeiro a ser substituído. No software que digitaliza o vídeo, já vai tudo no padrão da TV brasileira. Se alguém fala mais alto, o volume já abaixa automaticamente, algo que nós, humanos, nem conseguimos perceber ou reagir a tempo. Acontece em fração de segundos. Mas, no meu caso, eu trabalho em um estúdio, né? Eu cuido de um estúdio grande. Quem vem gravar música quer uma experiência humana, não quer que o computador faça as coisas por ela”, finaliza.
Luiz Fernando Kruszielski: a Inteligência Artificial e o áudio utilizado na inclusão
As ferramentas de restauração, ou as que acham “defeitos” no áudio e os consertam, são, em geral, a face do trabalho com áudio em que a I.A. está mais presente. Mas música e restauração não são as únicas áreas nas quais se atua com I.A. e áudio. Luiz Fernando Kruszielski, que trabalha na área de pesquisa em áudio da TV Globo, explica que sua pesquisa na Globo envolve a implementação de audiodescrição para deficientes visuais, utilizando I.A. para sintetizar a voz da narradora. "Pegamos alguns produtos que ela já havia gravado na Globo e fornecemos mais algumas frases para ela ler, retiradas de um banco de dados que sabemos que funcionam bem para esse tipo de treinamento. Utilizamos este material para treinar o modelo que adaptamos para o português.”
A narração é montada, de forma automática, a partir de um roteiro escrito por um roteirista humano. “A descrição da cena é feita por um ser humano. Um roteirista escreve o roteiro, que será narrado. O que mudamos foi apenas a parte da gravação da narração e da fala. Assim, quando o roteirista finaliza o texto, a narração já sai pronta de forma automática", detalha Luiz.
Um dos desafios no trabalho foi que os sistemas são avançados em inglês e chinês, que são as duas principais línguas no campo da I.A. Por isso, foi necessário trabalhar bastante em um sistema voltado para o português, para garantir que o modelo "soubesse" falar a língua corretamente. “Esse processo de adaptação foi algo que conseguimos fazer com sucesso”, comemora Kruszielski. A pesquisa começou na virada de 2018 para 2019 e se desenvolveu até que, em 2023, começou a ser utilizado no dia a dia. “Foi quando chegamos no ponto em que realmente tinha uma qualidade que não teria uma diferença muito significativa em relação à voz natural”, completa o pesquisador.
Além da atuação específica que faz na Globo, Kruszielski é músico de formação, com mestrado e doutorado em música pela Tokyo University of Fine Arts, com foco em áudio 3-D. Para ele, há mudanças importantes em curso, mas, no que diz respeito à criação, a I.A. ainda é uma ferramenta de replicação. “De uma maneira muito resumida, ela é muito boa em replicar coisas. Você pode treinar uma I.A. para executar exatamente o que você pede. Por exemplo, já deu uma olhada nos softwares de criação de música a partir de I.A.? O que eles fazem é o seguinte: você insere um texto como input, dizendo algo como ‘quero uma música no ritmo de tango, com acordeão e sintetizador’. A partir disso, o software vai buscar no banco de dados dele, que foi treinado com vários estilos de música, e tenta criar algo. Outro exemplo seria se você pedisse uma música alegre; ele vai tentar entender o que é uma música alegre e combinar esses elementos. Provavelmente, o resultado será uma mistura que pode não ser uma música muito boa, mas ainda assim, é uma música. O que percebo é que esse tipo de criação, como aquelas músicas de elevador, a I.A. já consegue fazer de maneira muito competente. São músicas que, muitas vezes, funcionam mais como ambientação para comerciais ou chamadas de áudio do que como música propriamente dita. No entanto, a I.A. ainda não consegue criar uma música complexa, estruturada, com desenvolvimento e tema, como uma feita por seres humanos. Mas, quando falamos de algo mais simples, como um pop mal-feito, ela já consegue replicar bem”, afirma.
Ainda que não acredite que a máquina substitua a criatividade humana, o pesquisador aponta consequências ruins no campo de atuação do profissional humano. “É um tipo de trabalho que as pessoas tinham até hoje e que pode ser que acabe perdendo, e aí entra a questão dos direitos autorais. A I.A. é treinada com base no trabalho de outras pessoas, o que levanta questões éticas, já que você está usando algo que pertence a alguém que não autorizou esse uso. Isso é completamente errado”, conclui.