Inteligência Artificial na Medicina

Ao final deste módulo, você será capaz de:

explicar o funcionamento básico dos algoritmos de aprendizado de máquina e das redes neurais artificiais, sem precisar de formação matemática avançada; distinguir os três paradigmas do aprendizado de máquina — supervisionado, não supervisionado e por reforço — e associar cada um a exemplos clínicos concretos; descrever as principais aplicações de inteligência artificial em medicina, incluindo diagnóstico por imagem, análise de prontuários eletrônicos, predição de risco clínico e modelos de linguagem; reconhecer os principais riscos éticos, sociais e regulatórios do uso clínico de IA, com ênfase em viés algorítmico, explicabilidade e responsabilidade; ler criticamente estudos que avaliem o desempenho de sistemas de IA em tarefas clínicas, aplicando um framework estruturado de perguntas; e avaliar, com critérios objetivos, uma ferramenta de IA disponível no mercado de saúde.

Inteligência artificial: o que é, de verdade

Existe um abismo entre o que a expressão “inteligência artificial” evoca no imaginário popular e o que ela realmente descreve no interior de um laboratório de pesquisa ou numa empresa de tecnologia em saúde. Para você, que está começando a estudar o tema com rigor, é indispensável começar por uma desmistificação honesta — porque trabalhar com IA na medicina sem entender o que ela é e o que ela não é é uma receita para erros que podem prejudicar pacientes reais.

Inteligência artificial não é um cérebro eletrônico. Não é uma entidade que pensa, raciocina ou compreende o mundo. É um conjunto de técnicas computacionais que permite que sistemas identifiquem padrões em dados e tomem decisões baseadas nesses padrões. A distinção parece sutil, mas tem implicações práticas imensuráveis: um sistema de IA não sabe o que está fazendo; ele apenas executa transformações matemáticas sobre números que representam entradas — pixels de uma imagem, palavras de um texto, valores de exames laboratoriais — e produz uma saída, que pode ser uma classificação, uma predição ou uma sequência de texto. Ele não “entende” pneumonia; ele associa padrões de pixels a um rótulo que alguém, em algum momento, chamou de pneumonia.

Sistemas especialistas: a primeira onda

A história da IA em medicina começa muito antes do aprendizado de máquina. Nos anos 1970 e 1980, a abordagem dominante era a dos sistemas especialistas — programas que codificavam o conhecimento de especialistas humanos em um conjunto explícito de regras lógicas do tipo “se o paciente tem febre, tosse produtiva e consolidação no lobo inferior direito, então a probabilidade de pneumonia bacteriana é alta”. O sistema MYCIN, desenvolvido na Universidade de Stanford no início dos anos 1970 para auxiliar no diagnóstico de infecções bacterianas e na seleção de antibióticos, é o exemplo mais famoso dessa geração.

A elegância dos sistemas especialistas era real: eles eram completamente transparentes. Qualquer pessoa com acesso ao código poderia percorrer a árvore de regras e entender exatamente por que o sistema chegou a uma dada conclusão. Isso tornava os sistemas auditáveis, interpretáveis e corrigíveis. Se uma regra estava errada, bastava corrigi-la.

O problema era igualmente real: o espaço de regras necessário para lidar com a complexidade da medicina real é incomensurável. Para reconhecer um melanoma em uma fotografia, as regras teriam que descrever todas as combinações possíveis de cor, textura, borda e assimetria em todos os fototipos de pele, em todas as condições de iluminação, em todas as localizações anatômicas — uma tarefa que nenhum ser humano consegue completar explicitamente. Para predizer o risco de reinternação hospitalar a partir de um prontuário eletrônico, as regras teriam que mapear interações entre centenas de variáveis clínicas e demográficas em populações heterogêneas. A complexidade do mundo real simplesmente excede a capacidade de qualquer programador ou especialista de escrever regras suficientes.

A virada para o aprendizado de máquina

A solução que emergiu — e que hoje domina absolutamente o campo da IA aplicada à medicina — foi inverter a lógica: em vez de programar regras explicitamente, fornecer ao sistema uma grande quantidade de exemplos e deixar que ele descubra as regras por conta própria. Isso é aprendizado de máquina.

A distinção entre sistemas baseados em regras e sistemas baseados em aprendizado não é apenas técnica; é filosófica. No sistema especialista, o conhecimento é explícito, declarado, auditável. No aprendizado de máquina, o conhecimento está codificado implicitamente nos parâmetros do modelo — em milhões ou bilhões de números que ninguém, incluindo os próprios criadores do sistema, sabe interpretar diretamente. Isso tem consequências que percorrem todos os debates sobre ética, regulação e responsabilidade em IA médica, e você os encontrará em cada seção subsequente deste módulo.

É importante dizer, desde já, o que o aprendizado de máquina não faz. Ele não raciocina: não constrói modelos causais do mundo, não pensa sobre consequências, não formula hipóteses. Não tem consciência nem qualquer forma de experiência subjetiva. Não entende causalidade — distinguir que o tabagismo causa câncer de pulmão de que as manchas amarelas nos dedos estão associadas a câncer de pulmão porque ambos são causados pelo tabagismo é algo que sistemas de aprendizado de máquina não fazem de forma confiável. E, talvez mais importante do ponto de vista clínico, não generaliza além do que viu nos dados de treinamento: um modelo treinado em imagens de fundo de olho coletadas em clínicas de alta renda nos Estados Unidos pode simplesmente falhar quando aplicado a imagens obtidas com equipamentos diferentes em clínicas públicas no interior do Brasil.

Sistemas especialistas vs. aprendizado de máquina

A diferença fundamental entre as duas abordagens pode ser resumida assim: nos sistemas especialistas, o programador define as regras e o sistema as aplica. No aprendizado de máquina, o sistema infere as regras a partir dos dados. A consequência prática é que o aprendizado de máquina escala muito melhor para tarefas perceptivas complexas — como reconhecimento de imagens —, mas produz modelos opacos cujo comportamento em situações novas é difícil de prever.

Como um modelo de IA aprende

Para entender por que os sistemas de IA se comportam como se comportam — incluindo seus erros mais perigosos —, você precisa entender o processo pelo qual um modelo é treinado. Não é necessário nenhum formalismo matemático denso para isso; a intuição essencial pode ser construída com palavras e um pouco de paciência.

O conceito de dados de treinamento

Todo modelo de aprendizado de máquina começa com dados. No caso mais comum em medicina — o aprendizado supervisionado, que detalharemos na próxima seção —, esses dados são exemplos rotulados: pares compostos de uma entrada e uma saída esperada. Uma imagem de fundo de olho acompanhada de um diagnóstico de retinopatia diabética grau 3, rotulado por um oftalmologista experiente. Um conjunto de dados de prontuário de um paciente acompanhado de uma informação binária indicando se ele foi reinternado nos 30 dias seguintes à alta. Uma nota clínica em texto livre acompanhada dos códigos CID-10 correspondentes, atribuídos por um codificador.

A qualidade e a composição desses dados de treinamento determinam, de forma mais decisiva do que qualquer outra escolha técnica, o comportamento do modelo resultante. Se os dados de treinamento foram coletados predominantemente em hospitais universitários de alta complexidade em países de alta renda, o modelo aprenderá os padrões desses contextos — e pode se comportar de forma completamente diferente quando encontrar dados de outro contexto. Se os rótulos foram atribuídos por humanos que cometem erros sistemáticos, o modelo aprenderá esses erros. Se certos grupos demográficos estão sub-representados nos dados, o modelo aprenderá menos sobre eles — o que invariavelmente se traduz em pior desempenho para esses grupos.

Essa dependência dos dados de treinamento é uma das características mais importantes da IA moderna para um médico entender, porque ela implica que avaliar um sistema de IA clínico exige, antes de qualquer outra coisa, entender de onde vieram seus dados.

A função de perda: o que o modelo está otimizando

Durante o treinamento, o modelo ajusta seus parâmetros internos para minimizar uma quantidade chamada de função de perda. Intuitivamente, a função de perda é uma medida do quanto as previsões do modelo diferem das respostas corretas nos dados de treinamento. Se o modelo diz que uma radiografia com pneumonia tem apenas 20% de probabilidade de pneumonia, a função de perda atribui a essa previsão um valor alto — uma penalidade. O algoritmo de treinamento então ajusta os parâmetros do modelo numa direção que reduz essa penalidade. Repita esse processo em milhões de exemplos, e o modelo gradualmente aprende a fazer previsões mais acuradas.

A escolha da função de perda tem implicações clínicas que frequentemente são subestimadas. Uma função de perda que trata de forma igual os erros de falso positivo e falso negativo pode ser perfeitamente adequada para um problema de triagem de spam, mas completamente inadequada para um sistema de detecção de câncer — onde perder um caso verdadeiro-positivo tem consequências muito mais graves do que gerar um falso alarme.

Overfitting, underfitting e generalização

Esses três conceitos estão entre os mais importantes para um médico que quer avaliar criticamente um sistema de IA.

O underfitting ocorre quando o modelo é simples demais para capturar os padrões relevantes nos dados de treinamento. Um modelo que tenta predizer o risco cardíaco a partir de apenas dois dados — sexo e idade — está quase certamente fazendo underfitting: ele ignora informações relevantes e produz previsões imprecisas tanto nos dados de treinamento quanto em dados novos. O underfitting é fácil de diagnosticar porque se manifesta como desempenho ruim em todos os conjuntos de dados.

O overfitting é o problema mais insidioso e, em medicina, o mais perigoso. Ele ocorre quando o modelo é complexo demais e acaba memorizando não apenas os padrões genuínos nos dados de treinamento, mas também o ruído — as peculiaridades específicas daquele conjunto de dados que não se repetem no mundo real. Um modelo que memorizou os dados de treinamento pode atingir desempenho perfeito neles e, ao mesmo tempo, falhar miseravelmente quando encontra dados novos. Imagine um modelo de detecção de melanoma que aprendeu que lesões fotografadas com uma régua ao lado tendem a ser malignas — não porque a régua cause melanoma, mas porque dermatologistas de certas instituições usavam régua apenas ao fotografar lesões suspeitas. Esse modelo, treinado num conjunto de dados específico, pode parecer excelente nos artigos acadêmicos e desapontar gravemente na prática clínica.

A generalização — a capacidade de um modelo de funcionar bem em dados que ele nunca viu durante o treinamento — é o que realmente importa em aplicações clínicas. Generalização exige que o modelo tenha capturado padrões genuinamente informativos sobre a tarefa clínica, não artefatos do conjunto de dados de treinamento. E verificar se um modelo de fato generaliza exige testá-lo em dados genuinamente independentes — idealmente coletados em diferentes instituições, em diferentes populações e em diferentes períodos de tempo.

Validação e teste: a arquitetura de um experimento honesto

A forma correta de avaliar um modelo de aprendizado de máquina envolve separar os dados disponíveis em pelo menos três conjuntos. O conjunto de treinamento é usado para ajustar os parâmetros do modelo. O conjunto de validação — que o modelo nunca vê durante o treinamento — é usado para tomar decisões sobre a arquitetura do modelo e para verificar se ele está generalizando adequadamente. O conjunto de teste — que nem o modelo nem o desenvolvedor devem consultar até o momento final de avaliação — fornece uma estimativa imparcial do desempenho real.

A validação externa, realizada com dados coletados em outra instituição ou outra população, é o padrão mais elevado de avaliação — e, não por coincidência, o mais raramente realizado nos estudos publicados. Quando você ler um artigo que afirma que um sistema de IA “supera médicos especialistas” e perceber que a validação foi feita com dados do mesmo hospital em que o modelo foi treinado, você terá uma razão sólida para ser cético.

Os três paradigmas do aprendizado de máquina

O aprendizado de máquina não é uma técnica única; é uma família de abordagens organizadas em torno de três paradigmas fundamentais, cada um adequado a diferentes tipos de problemas e dados. Entender esses paradigmas com exemplos clínicos concretos é indispensável para que você possa ler a literatura sobre IA em saúde com olhos críticos.

Aprendizado supervisionado: aprender com exemplos rotulados

No aprendizado supervisionado, o modelo aprende a partir de pares compostos de uma entrada e uma saída esperada — uma resposta “certa” fornecida por um ser humano. A palavra “supervisionado” vem exatamente daí: há uma supervisão humana implícita na forma dos rótulos. O modelo aprende a mapear entradas em saídas otimizando sua capacidade de predizer o rótulo correto.

Pense num médico aprendendo a diagnosticar retinopatia diabética. Nos primeiros anos de prática, um supervisor experiente — um oftalmologista sênior — olha as mesmas imagens que o residente e diz “isso é grau 2, isso é grau 4, isso é normal”. Com o tempo, o residente internaliza os critérios e passa a diagnosticar sem precisar de supervisão constante. O aprendizado supervisionado em IA reproduz essa lógica: você mostra ao modelo milhares ou milhões de exemplos rotulados por especialistas e, gradualmente, ele aprende a classificar novas imagens com desempenho comparável ao do especialista.

Os exemplos clínicos de aprendizado supervisionado são abundantes. A detecção de retinopatia diabética a partir de fotografias de fundo de olho é um dos casos mais estudados: o modelo recebe uma imagem como entrada e produz como saída uma classificação de gravidade da retinopatia. A predição de reinternação hospitalar em 30 dias funciona de forma análoga: o modelo recebe como entrada um conjunto de variáveis do prontuário — diagnósticos, exames, medicações, dados demográficos, comorbidades — e produz como saída uma probabilidade de que o paciente retorne ao hospital dentro de 30 dias da alta. A detecção de melanoma em imagens dermatoscópicas recebe como entrada uma imagem e produz uma classificação binária entre lesão benigna e maligna.

O aprendizado supervisionado se divide em duas grandes categorias de acordo com o tipo de saída esperada. Na classificação, a saída é uma categoria discreta: pneumonia ou não pneumonia, maligno ou benigno, grau 1 ou grau 2 ou grau 3. Na regressão, a saída é um valor numérico contínuo: a probabilidade de um evento, a dose estimada de um medicamento, o tempo esperado até um desfecho.

Métricas de avaliação em medicina

Avaliar um modelo de classificação em medicina exige ir além da acurácia — a proporção de previsões corretas. Acurácia é uma métrica que pode ser completamente enganosa em contextos clínicos: se apenas 1% dos pacientes submetidos a uma triagem tem a doença em questão, um modelo que diz “não tem a doença” para todos os pacientes terá 99% de acurácia — e será completamente inútil.

As métricas fundamentais em medicina são a sensibilidade e a especificidade. A sensibilidade, também chamada de taxa de verdadeiros positivos, mede a proporção de casos positivos que o modelo identifica corretamente: de todos os pacientes que realmente têm a doença, quantos o modelo acerta? A especificidade, ou taxa de verdadeiros negativos, mede a proporção de casos negativos que o modelo descarta corretamente: de todos os pacientes que realmente não têm a doença, quantos o modelo classifica como negativos?

Para tornar essas definições concretas, imagine um modelo de detecção de tuberculose pulmonar aplicado a radiografias de tórax. Num conjunto de 1.000 radiografias, 100 são de pacientes com tuberculose confirmada e 900 são de pacientes sem a doença. O modelo identifica 90 dos 100 casos reais de tuberculose — tem sensibilidade de 90% — e descarta corretamente 810 dos 900 casos negativos, mas gera 90 falsos alarmes — tem especificidade de 90%. Com esses números, o valor preditivo positivo, que responde à pergunta “dado que o modelo disse positivo, qual é a probabilidade de que o paciente realmente esteja doente?”, seria de 90 dividido por 180, ou seja, 50% — metade dos alarmes positivos do modelo são falsos.

Esse exemplo ilustra uma verdade fundamental da medicina preventiva e do raciocínio diagnóstico que não muda quando a ferramenta é um algoritmo: o valor preditivo positivo depende da prevalência da doença na população testada. O mesmo modelo com 90% de sensibilidade e 90% de especificidade terá um VPP muito mais alto numa clínica de referência para tuberculose, onde a prevalência pode ser de 50%, do que numa unidade básica de saúde geral, onde pode ser de 1%. Médicos tendem a esquecer isso quando confrontados com artigos que reportam a sensibilidade e especificidade de sistemas de IA — e os artigos frequentemente não ajudam, porque reportam métricas calculadas na prevalência da população de treinamento, que pode ser muito diferente da prevalência na sua população de pacientes.

A curva ROC (Receiver Operating Characteristic) e sua área sob a curva (AUC-ROC, ou simplesmente AUC) são métricas muito comuns em estudos de IA médica. A curva ROC representa graficamente a relação entre sensibilidade e 1 menos especificidade em todos os possíveis limiares de decisão do modelo. A AUC é um número entre 0,5 e 1,0 que resume essa curva: 0,5 indica um modelo sem poder discriminativo (equivalente a jogar uma moeda), e 1,0 indica um modelo perfeito. Uma AUC de 0,85, por exemplo, significa que em 85% das vezes que o modelo avalia um par formado por um caso positivo e um caso negativo, ele atribui probabilidade maior ao caso positivo — o que é uma medida de discriminação, mas não responde diretamente a perguntas clínicas sobre sensibilidade e especificidade em limiares específicos.

A AUC tem uma limitação fundamental que é crucial para você conhecer: ela é uma métrica agregada que pode esconder comportamento muito desigual em subgrupos populacionais. Um modelo com AUC de 0,90 na população geral pode ter AUC de 0,95 em homens brancos de 40 a 60 anos e AUC de 0,72 em mulheres negras acima de 65 anos. Se você olhar apenas para a AUC global, não verá essa disparidade — e poderá implantar um sistema que discrimina sistematicamente grupos vulneráveis.

Aprendizado não supervisionado: encontrar estrutura sem rótulos

No aprendizado não supervisionado, o modelo recebe apenas entradas, sem nenhum rótulo de saída esperada. A tarefa é descobrir estrutura latente nos dados — padrões, agrupamentos, representações compactas — sem que nenhum ser humano tenha especificado previamente o que procurar. É como dar a alguém uma coleção de documentos escritos em um idioma desconhecido e pedir que organize esses documentos em grupos que pareçam coerentes, sem saber nada sobre o conteúdo.

Os exemplos clínicos de aprendizado não supervisionado são menos espetaculares do que os de aprendizado supervisionado, mas profundamente relevantes. O agrupamento de pacientes por padrões de comorbidades — uma técnica chamada de análise de cluster — pode revelar subgrupos de pacientes com diabetes tipo 2, por exemplo, que respondem de forma diferente a certas intervenções terapêuticas, mesmo sendo clinicamente indistinguíveis pelos critérios diagnósticos habituais. A identificação de subtipos moleculares de tumores a partir de perfis de expressão gênica — como a classificação do câncer de mama em luminal A, luminal B, HER2-enriquecido e basal-like — emergiu em grande parte de técnicas de aprendizado não supervisionado. A detecção de anomalias em dados de prontuário eletrônico pode identificar combinações incomuns de diagnósticos, medicamentos e resultados de exames que sinalizam erros de registro ou eventos adversos não relatados.

Uma característica fundamental do aprendizado não supervisionado que tem implicações clínicas diretas é que a interpretação dos padrões descobertos exige sempre um especialista humano. O algoritmo pode identificar que há três grupos distintos de pacientes com insuficiência cardíaca, mas não tem como dizer o que esses grupos significam clinicamente, se são clinicamente relevantes, ou como deveriam ser tratados de forma diferente. A interpretação é sempre responsabilidade do médico.

Aprendizado por reforço: aprender com tentativa e erro

O aprendizado por reforço é o mais distante dos paradigmas do aprendizado supervisionado e merece atenção especial porque suas características tornam sua aplicação em medicina particularmente delicada.

No aprendizado por reforço, um agente aprende a tomar decisões sequenciais interagindo com um ambiente. A cada ação que o agente toma, o ambiente fornece um sinal de recompensa: a ação foi boa ou ruim? O objetivo do agente é aprender uma política — uma regra de decisão que, dados o estado atual do ambiente, especifica qual ação tomar — que maximize a recompensa acumulada ao longo do tempo. É exatamente como um ser humano aprende a jogar xadrez: tentando jogadas, observando os resultados e, gradualmente, internalizando quais sequências de jogadas levam à vitória.

Os exemplos clínicos de aprendizado por reforço incluem a otimização de esquemas de dosagem para quimioterapia ou antibioticoterapia — onde o objetivo é encontrar a sequência de doses que maximiza a eficácia terapêutica enquanto minimiza os efeitos adversos — e a personalização de protocolos de ventilação mecânica em pacientes internados em UTI, onde as decisões sobre volume corrente, pressão de suporte e frações inspiradas de oxigênio precisam ser ajustadas continuamente com base na resposta fisiológica do paciente.

O motivo pelo qual o aprendizado por reforço é especialmente delicado em medicina pode ser explicado por duas características do problema clínico. Em primeiro lugar, os ciclos de feedback são longos e ruidosos: o efeito de uma decisão de dosagem hoje pode não se manifestar clinicamente por dias ou semanas, e a resposta do paciente está sujeita a inúmeros fatores confundidores. Em segundo lugar, durante o processo de aprendizado, o agente inevitavelmente comete erros — e em medicina, erros podem prejudicar pacientes reais. Em ambientes virtuais, como simuladores de xadrez ou videogames, os erros são baratos; em ambientes clínicos reais, não o são. Isso faz com que a aplicação clínica de aprendizado por reforço exija estruturas de segurança e supervisão humana muito mais rigorosas do que em outras aplicações.

Os três paradigmas em síntese

O aprendizado supervisionado aprende com exemplos rotulados e é o paradigma dominante nas aplicações clínicas de IA hoje — diagnóstico por imagem, predição de risco, detecção de eventos adversos. O aprendizado não supervisionado descobre estrutura em dados sem rótulos e é especialmente útil na identificação de subtipos de doenças e padrões em grandes conjuntos de dados clínicos. O aprendizado por reforço aprende com tentativa e erro numa sequência de decisões e tem aplicações promissoras em otimização de tratamentos, mas requer cautela redobrada dado o potencial de dano durante o próprio processo de aprendizado.

Redes neurais artificiais e aprendizado profundo

Se você ouvir alguém dizer que sistemas de IA “funcionam como o cérebro humano”, pode ter certeza de que há uma simplificação excessiva acontecendo. Redes neurais artificiais são inspiradas, de forma muito loose e superficial, pela organização dos neurônios biológicos — mas são essencialmente ferramentas matemáticas para aprender funções complexas a partir de dados. Entender a intuição arquitetural por trás delas é essencial para compreender por que funcionam tão bem em certas tarefas e por que falham de formas às vezes surpreendentes.

A intuição arquitetural de uma rede neural

Uma rede neural artificial é uma cascata de transformações matemáticas. Ela recebe uma entrada — por exemplo, os valores numéricos dos pixels de uma imagem radiológica — e a passa por uma série de camadas, cada uma aplicando transformações parametrizadas. A saída final pode ser uma probabilidade de que a imagem contenha um nódulo pulmonar, um diagnóstico, ou qualquer outra grandeza que o modelo foi treinado para predizer.

Cada “neurônio” numa camada é uma unidade de transformação que recebe como entrada os valores produzidos pela camada anterior, os combina linearmente — multiplicando cada um por um peso e somando os produtos —, adiciona um deslocamento (viés) e passa o resultado por uma função de ativação não-linear. Os pesos são os parâmetros ajustáveis do modelo: durante o treinamento, eles são iterativamente ajustados para minimizar a função de perda.

A palavra “profundo” em aprendizado profundo (deep learning) refere-se simplesmente ao número de camadas nessa cascata. Uma rede com duas ou três camadas intermediárias é “rasa”. Uma rede com dezenas ou centenas de camadas é “profunda”. A profundidade importa porque cada camada subsequente pode aprender representações progressivamente mais abstratas da entrada. Em uma rede convolucional treinada para classificar imagens médicas, as camadas iniciais tendem a aprender características de baixo nível como bordas, gradientes e texturas. As camadas intermediárias combinam essas características em padrões mais complexos — formas, regiões de interesse. As camadas finais integram essas representações em padrões diagnósticos de alto nível — o padrão de vidro fosco bilateral sugestivo de pneumonia por COVID-19, ou a irregularidade de borda sugestiva de melanoma.

Redes convolucionais: a arquitetura que revolucionou o diagnóstico por imagem

As redes convolucionais (CNNs, do inglês Convolutional Neural Networks) são a arquitetura que tornou possível o desempenho impressionante de sistemas de IA em diagnóstico por imagem. A intuição por trás delas é simples: ao invés de tratar cada pixel da imagem como uma variável independente — o que seria computacionalmente inviável para imagens de alta resolução e desperdiçaria a estrutura espacial da informação —, as CNNs aplicam filtros convolucionais que percorrem a imagem e detectam padrões locais em todas as posições.

Imagine um filtro que foi aprendido para detectar bordas verticais. Ao percorrer a imagem, esse filtro produz uma ativação alta nas regiões onde há bordas verticais e ativação baixa em regiões uniformes. Outro filtro detecta bordas horizontais. Outros detectam gradientes, cantos, texturas específicas. Ao empilhar múltiplas camadas convolucionais, a rede aprende hierarquias de filtros progressivamente mais específicos — dos pixels brutos até os padrões diagnósticos.

Essa arquitetura tem uma propriedade que é especialmente valiosa em medicina: invariância translacional. Um nódulo pulmonar tem as mesmas características diagnósticas independentemente de estar no lobo superior direito ou no lobo inferior esquerdo da radiografia. Uma CNN que aprendeu a reconhecer nódulos em uma posição pode generalizá-la para outras posições, o que seria muito mais difícil em arquiteturas que tratam cada posição separadamente.

Transformers e mecanismo de atenção

Os Transformers são uma arquitetura de rede neural que emergiu no processamento de linguagem natural e hoje domina esse domínio — e está expandindo sua influência para imagens, sinais biológicos e dados multimodais em medicina. A intuição central por trás dos Transformers é o mecanismo de atenção: ao processar cada elemento de uma sequência — seja uma palavra num texto clínico ou um token num sequência genômica —, a rede aprende a “prestar atenção” aos outros elementos da sequência que são mais relevantes para interpretar o elemento atual.

Pense num médico lendo uma nota de evolução. Ao encontrar a palavra “dispneia”, o médico não a processa em isolamento — imediatamente busca no contexto do texto outras informações relevantes: “há quanto tempo?”, “em repouso ou esforço?”, “associada a dor torácica?”. O mecanismo de atenção faz algo matematicamente análogo: para cada posição na sequência, calcula um vetor de pesos que determina quanto cada outra posição contribui para a representação do elemento atual. Elementos muito relevantes para o contexto recebem pesos altos; elementos irrelevantes recebem pesos próximos de zero.

Essa capacidade de capturar relações de longo alcance numa sequência tornou os Transformers superiores às arquiteturas anteriores em tarefas de processamento de linguagem natural — e foi o fundamento sobre o qual foram construídos os grandes modelos de linguagem como o GPT-4, o Claude e o Gemini, que discutiremos na seção sobre PLN e LLMs.

O problema da caixa-preta

Uma das propriedades mais preocupantes das redes neurais profundas, e uma das que têm implicações mais diretas para a medicina, é sua opacidade. Enquanto um sistema especialista permite que você percorra as regras e entenda por que chegou a uma dada conclusão, uma rede neural profunda com centenas de milhões de parâmetros não oferece essa possibilidade. Os parâmetros da rede codificam o conhecimento aprendido, mas não de uma forma que possa ser lida ou interpretada diretamente por um ser humano.

Isso cria o que é frequentemente chamado de problema da caixa-preta: o sistema fornece uma resposta, mas não uma explicação. Para certas aplicações — recomendar uma música ou classificar um email como spam — a falta de explicação é apenas inconveniente. Para aplicações clínicas, ela levanta questões fundamentais que não são puramente técnicas.

Se um sistema de IA sugere que um paciente tem alta probabilidade de reestenose após uma angioplastia, com base em dados do prontuário que o médico não sabe exatamente como foram ponderados, como o médico deve agir? Deve confiar cegamente na predição? Descartá-la? Discuti-la com o paciente sem conseguir explicar a razão? E se o paciente for de um grupo demográfico sub-representado nos dados de treinamento e o modelo tiver desempenho inferior justamente para esse grupo? A opacidade do modelo impede que o médico ou o paciente detecte esse problema sem testes adicionais cuidadosos.

Há um campo crescente dedicado a esse problema — a inteligência artificial explicável (XAI) —, que discutiremos na seção sobre ética. Mas é importante ter clareza desde agora: as técnicas de explicabilidade existentes são aproximações, não janelas transparentes para o interior do modelo.

Ponto de atenção para a prática clínica

A opacidade dos sistemas de aprendizado profundo não é um detalhe técnico irrelevante para o médico. Ela tem implicações diretas para responsabilidade clínica, para a relação médico-paciente e para a capacidade de identificar quando um sistema está falhando sistematicamente em subgrupos específicos de pacientes. Como médico, você não pode simplesmente “confiar no algoritmo” sem entender suas limitações.

Visão computacional e diagnóstico por imagem

O diagnóstico por imagem foi o campo em que a IA produziu os avanços mais rápidos e mais amplamente divulgados na medicina. Há razões técnicas para isso: imagens são dados bem estruturados, os rótulos diagnósticos em radiologia e patologia têm definições relativamente precisas, e os conjuntos de dados de treinamento podem ser grandes. Mas a narrativa de que “a IA vai substituir o radiologista” é uma simplificação que você precisa ser capaz de desmontar com argumentos sólidos.

Radiologia de tórax e TC

Em 2017, pesquisadores da Universidade de Stanford publicaram o CheXNet — uma rede convolucional treinada em mais de 100.000 radiografias de tórax rotuladas para 14 condições diferentes, incluindo pneumonia, edema pulmonar, efusão pleural e atelectasia. O artigo reportou que o CheXNet atingia desempenho superior ao de quatro radiologistas de plantão na detecção de pneumonia, medido pela AUC.

Esse resultado foi amplamente reportado na mídia como evidência de que a IA havia “superado” radiologistas. Uma leitura mais cuidadosa do artigo revela nuances importantes. Os quatro radiologistas usados como comparação eram médicos em horário de plantão, trabalhando nas condições habituais de um pronto-socorro — não especialistas em radiologia pulmonar consultados com tempo adequado. O conjunto de dados de treinamento e teste era de uma única instituição (o Hospital Universitário de Stanford). O modelo foi avaliado apenas na tarefa de detecção de pneumonia em radiografias de tórax frontais, não na integração de contexto clínico — que é uma parte substancial do trabalho real de um radiologista. Nenhuma dessas ressalvas invalida o trabalho, que é tecnicamente sólido; elas contextualizam o que foi realmente demonstrado.

Além da detecção de pneumonia, sistemas baseados em aprendizado profundo foram desenvolvidos e validados para detecção de hemorragia intracraniana em tomografias computadorizadas (uma tarefa de alta urgência clínica), identificação e caracterização de nódulos pulmonares em TC de tórax, medição de volumes cerebrais em ressonância magnética para diagnóstico de demência, e detecção de pneumotórax em radiografias de tórax em tempo real.

O que esses sistemas fazem bem é consistente com sua natureza: eles reconhecem padrões estatisticamente frequentes em grandes conjuntos de imagens rotuladas. Imagens de boa qualidade, de populações semelhantes à de treinamento, com apresentações típicas das condições alvo — esse é o território onde a IA em imagem tende a se sair bem. O que esses sistemas fazem mal revela suas limitações fundamentais: imagens de baixa qualidade ou com artefatos não representados no treinamento, apresentações atípicas de doenças comuns, doenças raras com poucos exemplos no conjunto de treinamento, e a integração de contexto clínico — “esse achado radiológico, nesse paciente de 35 anos sem fatores de risco, que chegou com queixa de palpitações após viagem longa, tem um significado muito diferente do mesmo achado em um paciente de 70 anos fumante”.

O viés de confirmação nos datasets: “estudando com a resposta”

Há um problema metodológico sutil mas pervasivo em estudos de IA em diagnóstico por imagem que merece atenção explícita. Quando pesquisadores coletam imagens de arquivos hospitalares para criar um conjunto de dados de treinamento, os rótulos — os diagnósticos — são frequentemente obtidos do próprio prontuário do paciente, não de uma releitura independente das imagens. Isso significa que o rótulo foi construído com informações que um médico real teria, incluindo o resultado de outros exames, a história clínica e, em alguns casos, confirmação histopatológica. O modelo, ao treinar, aprende a replicar o diagnóstico que foi feito com toda essa informação — não a tarefa mais difícil e clinicamente relevante de chegar ao diagnóstico a partir da imagem isolada.

Esse fenômeno é às vezes chamado de “estudar com a resposta” e representa uma forma de contaminação dos dados que superestima o desempenho real do modelo em condições de uso clínico genuíno, onde o médico (e o algoritmo) precisariam chegar ao diagnóstico antes de ter todas as informações.

Patologia digital e histopatologia

A digitalização de lâminas histológicas em alta resolução (whole-slide imaging) abriu um novo campo de aplicação para a IA em medicina. Modelos de aprendizado profundo foram desenvolvidos para graduar automaticamente adenocarcinoma de próstata pelo escore de Gleason, identificar células tumorais em margens cirúrgicas, predizer o prognóstico de certos tumores a partir de características morfológicas, e detectar metástases linfonodais em lâminas digitalizadas.

Esses sistemas têm um potencial especialmente relevante em contextos de baixa renda, onde a densidade de patologistas é insuficiente para cobrir a demanda diagnóstica, e onde um sistema de assistência automatizada poderia aumentar a capacidade de detecção precoce de cânceres tratáveis.

Dermatologia: o estudo de Esteve et al. (2017)

Em 2017, Esteve e colaboradores publicaram na revista Nature um estudo comparando o desempenho de uma rede neural convolucional com o de 21 dermatologistas certificados na classificação de lesões cutâneas em duas tarefas: distinguir carcinoma epidermoide de queratose seborreica benigna, e distinguir melanoma de nevos benignos.

O resultado reportado foi que a CNN atingiu sensibilidade e especificidade comparáveis ou superiores às dos dermatologistas nas duas tarefas. O estudo teve repercussão enorme e foi amplamente citado como evidência de que a IA poderia democratizar o diagnóstico dermatológico ao disponibilizar triagem de alta qualidade para populações sem acesso a especialistas.

A discussão metodológica do estudo, no entanto, aponta limitações importantes. Os dermatologistas foram avaliados apenas com base em imagens estáticas, sem os benefícios do exame clínico habitual — história do paciente, palpação da lesão, dermatoscopia com iluminação adequada. O conjunto de dados de treinamento e teste era composto majoritariamente por imagens de pacientes com fototipos claros (fototipos I-III na escala de Fitzpatrick), e estudos subsequentes demonstraram que o desempenho do modelo era significativamente inferior em fototipos escuros (IV-VI) — um problema com óbvias implicações para equidade no acesso ao diagnóstico.

IDx-DR: o primeiro dispositivo de diagnóstico autônomo aprovado pela FDA

Em 2018, o IDx-DR tornou-se o primeiro dispositivo de IA aprovado pela FDA para diagnóstico autônomo — isto é, sem a necessidade de revisão por um médico — de retinopatia diabética. O sistema analisa fotografias de fundo de olho e, de forma completamente autônoma, comunica ao operador (que pode ser um técnico de saúde, não um médico) se o paciente apresenta ou não retinopatia diabética que requer encaminhamento para um especialista.

A palavra “autônomo” aqui tem um significado regulatório preciso: diferente dos sistemas de IA que auxiliam o médico ou fornecem um “sinal de alerta” para revisão humana, o IDx-DR toma a decisão diagnóstica sem intervenção médica obrigatória. Isso representa uma mudança qualitativa no uso clínico de IA — com consequências diretas para a questão da responsabilidade em caso de erro — e foi possível porque a tarefa é bem definida (detecção de retinopatia diabética de referência em uma população de pacientes diabéticos), a evidência de validação foi considerada suficientemente robusta pela FDA, e o risco de um erro isolado foi considerado aceitável dado o benefício de expandir o acesso ao rastreamento.

Análise de prontuários e predição de risco

Enquanto o diagnóstico por imagem é, de muitas formas, um problema visualmente bem definido, a análise de prontuários eletrônicos representa um desafio de natureza diferente: os dados são heterogêneos, incompletos, ruidosos e carregam consigo as assimetrias estruturais dos sistemas de saúde que os geraram.

Dados estruturados e não estruturados em prontuários

Um prontuário eletrônico típico contém dois tipos fundamentais de dados. Os dados estruturados são aqueles que existem em campos padronizados: resultados de exames laboratoriais com valores numéricos, diagnósticos codificados em CID-10, medicamentos prescritos, sinais vitais medidos em horários definidos, procedimentos realizados. Esses dados são relativamente fáceis de alimentar diretamente em modelos de aprendizado de máquina.

Os dados não estruturados compreendem texto livre: notas de evolução escritas por médicos e enfermeiros, resumos de alta, cartas de encaminhamento, laudos de exames complementares, anotações de fisioterapeutas e assistentes sociais. Esses dados contêm frequentemente as informações clinicamente mais ricas — a hipótese diagnóstica do médico assistente, a descrição da trajetória do paciente ao longo do internamento, o contexto social que explica a recorrência de internações — mas são muito mais difíceis de processar de forma automatizada.

Uma característica dos dados de prontuário que tem implicações profundas para a IA é o viés de registro: o que está documentado no prontuário não é uma amostra aleatória ou representativa da condição clínica do paciente; é o que o profissional de saúde considerou relevante documentar, filtrado pelas convenções institucionais, pelo tempo disponível, e pelas incentivos existentes para registrar certas informações e omitir outras. Pacientes com acesso a mais exames têm prontuários mais ricos — não necessariamente porque estão mais doentes, mas porque tiveram mais investigação documentada. Isso tem implicações diretas para os modelos que tentam predizer risco a partir de prontuários.

O Epic Sepsis Model: um caso de estudo em implantação real

O Epic Sepsis Model (ESM) é um algoritmo de predição de sepse desenvolvido pela empresa Epic Systems e integrado ao seu sistema de prontuário eletrônico, amplamente utilizado em hospitais americanos. O modelo analisa dados em tempo real do prontuário — sinais vitais, exames laboratoriais, medicamentos — e gera um escore de risco de sepse para cada paciente internado. Quando o escore ultrapassa um limiar, o sistema gera um alerta para a equipe de enfermagem e médica.

O ESM foi implantado em milhares de hospitais nos Estados Unidos antes de ser submetido a avaliação independente rigorosa — o que representa, por si só, uma questão importante sobre como sistemas de IA são adotados na saúde. Quando estudos independentes finalmente avaliaram o ESM em populações distintas das usadas no desenvolvimento, os resultados foram preocupantes. Um estudo publicado no JAMA Internal Medicine em 2021, conduzido no Michigan Medicine, encontrou que o ESM tinha um valor preditivo positivo de apenas 12% — o que significa que, de cada 100 alertas gerados pelo modelo, apenas 12 correspondiam a casos que evolíram para sepse grave. Isso implica uma quantidade muito elevada de alarmes falsos, com potencial para sobrecarga das equipes clínicas, fadiga de alerta, e potencial para efeitos adversos decorrentes de investigações e tratamentos desnecessários.

Além do desempenho insatisfatório em populações independentes, o ESM apresentou evidências de viés racial: o modelo tinha sensibilidade significativamente inferior em pacientes negros comparados a pacientes brancos, mesmo após ajuste por gravidade da doença. Esse achado é consistente com um padrão conhecido: se pacientes de certas raças receberam historicamente menos exames e menos intervenções precoces, seus prontuários conterão menos sinais documentados de deterioração precoce — e um modelo treinado nesses dados aprenderá a associar a ausência de documentação com ausência de risco, quando na verdade a ausência de documentação pode refletir barreiras de acesso.

A predição de reinternação em 30 dias e o viés de acesso

A reinternação hospitalar em 30 dias é um desfecho clinicamente relevante e um indicador de qualidade de cuidado que foi amplamente estudado. Modelos de IA para predição de reinternação são implementados em muitos hospitais para identificar pacientes que se beneficiariam de intervenções de transição de cuidado mais intensivas.

O problema fundamental com esses modelos é que o risco de reinternação não é apenas uma função da condição clínica do paciente — é também uma função de seus recursos sociais, econômicos e geográficos. Pacientes com menos acesso a cuidados ambulatoriais, com menor renda, morando em áreas remotas ou com barreiras de transporte, têm maior probabilidade de reinternação não porque estejam mais doentes, mas porque têm menos capacidade de gerenciar sua doença fora do hospital. Um modelo treinado em dados históricos aprende esse padrão — e pode recomendar intervenções mais intensivas para pacientes de grupos já marginalizados, ao mesmo tempo que subestima o risco de reinternação em pacientes privilegiados que têm acesso a recursos que o prontuário não registra.

NEWS vs. modelos de IA: quando a complexidade se justifica?

O National Early Warning Score (NEWS) é uma escala de triagem clínica que combina seis variáveis fisiológicas — frequência respiratória, saturação de oxigênio, pressão arterial sistólica, frequência cardíaca, temperatura e nível de consciência — em uma pontuação simples que prediz deterioração clínica em pacientes hospitalizados. O NEWS foi desenvolvido usando métodos estatísticos clássicos, é transparente e interpretável, pode ser calculado sem computador por qualquer profissional de saúde, e tem um desempenho validado em múltiplas populações e contextos.

Quando um modelo complexo de aprendizado de máquina é desenvolvido para a mesma tarefa — predizer deterioração clínica — e avaliado contra o NEWS, frequentemente o ganho de desempenho é modesto ou inexistente. Isso levanta uma pergunta que todo médico deveria fazer ao se deparar com qualquer sistema de IA proposto para uso clínico: a complexidade se justifica? A opacidade adicional de um modelo de caixa-preta, a dificuldade de implantação e manutenção, o risco de comportamento inesperado em populações diferentes da de treinamento — esses custos valem o ganho marginal de desempenho? Em muitos casos, a resposta honesta é não.

Processamento de linguagem natural e LLMs na medicina

O processamento de linguagem natural (PLN) é o campo da IA dedicado à análise, geração e tradução de texto humano. Sua relevância para a medicina é imensa, dado que uma parcela enorme das informações clínicas existe sob a forma de texto — notas de evolução, laudos, resumos de alta, literatura científica, diretrizes clínicas, interações entre paciente e profissional de saúde.

PLN “tradicional” antes dos LLMs

Antes do advento dos grandes modelos de linguagem, o PLN em medicina era baseado em técnicas mais limitadas, mas igualmente úteis. A extração de informações de notas clínicas — identificar automaticamente que “paciente apresentou sangramento digestivo alto” e extrair essa informação em formato estruturado — era uma tarefa central. A codificação automática de diagnósticos, transformando texto de notas de alta em códigos CID-10 ou CID-11, era outro uso comum, com benefícios diretos para eficiência administrativa e qualidade de dados. A detecção de eventos adversos a partir de notas de enfermagem e registros farmacológicos foi usada para identificar erros de medicação e complicações que não foram formalmente documentados como incidentes.

Essas aplicações de PLN “tradicional” — baseadas em técnicas como tokenização, análise morfossintática, reconhecimento de entidades nomeadas e classificação de texto — seguem sendo usadas em muitos contextos e têm a vantagem de serem interpretáveis e requerem muito menos dados e recursos computacionais do que os LLMs.

Os grandes modelos de linguagem (LLMs)

Os grandes modelos de linguagem representam uma mudança qualitativa em escala e capacidade. Um LLM é um modelo do tipo Transformer treinado em volumes imensos de texto — centenas de bilhões de palavras, abrangendo livros, artigos científicos, páginas web, código, conversas — para realizar uma tarefa aparentemente simples: dado um contexto de texto, predizer o próximo token (palavra ou parte de palavra) mais provável.

O que é surpreendente não é a tarefa — predição do próximo token é um objetivo modesto — mas o que emerge desse treinamento em escala. Para predizer o próximo token de forma acurada num corpus vasto e heterogêneo, um modelo precisa aprender, implicitamente, muitas coisas: gramática, fatos sobre o mundo, relações causais superficiais, convenções de estilos de escrita, raciocínio matemático elementar. Essa emergência de capacidades “não programadas” em modelos de linguagem de grande escala é um dos fenômenos mais estudados e debatidos na pesquisa de IA contemporânea.

Os LLMs mais amplamente conhecidos em contexto clínico incluem o GPT-4 (OpenAI), o Claude (Anthropic), o Gemini (Google) e o LLaMA (Meta, de código aberto). Todos compartilham a mesma arquitetura fundamental Transformer, foram treinados em corpus de texto de escala massiva e demonstram capacidades impressionantes em tarefas de linguagem.

O que LLMs fazem bem em contexto clínico

Os LLMs demonstraram desempenho notável em várias tarefas com relevância clínica direta. A geração de resumos de prontuários — condensar um internamento longo em um resumo coerente de alta — é uma tarefa onde os LLMs se saem bem, pois exige fluência linguística, capacidade de identificar informações relevantes num texto longo e estruturar a saída de forma padronizada. A resposta a perguntas de farmacologia — “qual é a dose máxima de paracetamol em adultos?”, “quais são as interações relevantes entre warfarina e amiodarona?” — é outra área onde os LLMs demonstraram desempenho satisfatório em estudos de avaliação.

A assistência ao raciocínio diferencial — “dado este quadro clínico, quais diagnósticos diferenciais deveriam ser considerados?” — é uma aplicação que tem atraído especial atenção. Estudos mostraram que o GPT-4, por exemplo, quando apresentado com relatos de casos clínicos complexos, gera listas de diagnósticos diferenciais que incluem o diagnóstico correto com frequência comparável à de médicos residentes.

A simplificação e tradução de jargão médico — reescrever uma nota de alta ou um laudo em linguagem compreensível para pacientes sem formação médica — é uma aplicação com potencial enorme para a comunicação clínica e a autonomia dos pacientes.

O que LLMs não fazem

Para cada capacidade impressionante dos LLMs, há uma limitação fundamental que o médico precisa ter gravada na memória, porque o texto fluente e confiante que esses modelos produzem pode obscurecer facilmente essas limitações.

Os LLMs não raciocinam causalmente de forma confiável. Eles aprenderam associações estatísticas em texto — quais palavras e conceitos tendem a aparecer juntos — não relações causais verificadas. Para perguntas que exigem raciocínio causal sofisticado — “se eu interromper o betabloqueador desse paciente, o que acontecerá com sua frequência cardíaca e por quê?” —, os LLMs podem produzir respostas plausíveis que são incorretas.

Os LLMs não atualizam seu conhecimento após o treinamento. Eles têm uma data de corte do conhecimento: tudo o que foi publicado após essa data é invisível para o modelo. Diretrizes clínicas que foram revisadas, medicamentos que foram retirados do mercado, interações farmacológicas recentemente descobertas — um LLM com conhecimento desatualizado pode fornece orientação errada com a mesma fluência e confiança que fornece orientação correta.

Os LLMs não verificam a veracidade do que dizem. Um modelo de linguagem não tem acesso a uma base de fatos verificada; ele produz texto que é estatisticamente plausível dado seu treinamento. Se a resposta correta a uma pergunta era pouco representada no corpus de treinamento, o modelo pode produzir uma resposta incorreta — ou inventar uma resposta que nunca existiu — de forma completamente indistinguível, na superfície, de uma resposta correta.

Alucinações: o risco específico em medicina

O fenômeno das alucinações em LLMs — a geração de texto factualmente errado apresentado com confiança — é conhecido desde os primeiros estudos de avaliação. O nome é evocativo: assim como alucinações em psicopatologia envolvem percepções que parecem reais mas não o são, alucinações em LLMs envolvem afirmações que parecem plausíveis e bem fundamentadas mas são factualmente incorretas.

Em medicina, as alucinações representam um risco de natureza diferente do que em outras aplicações. Se um LLM alucinar ao escrever um poema, o resultado é um poema ruim. Se um LLM alucinar ao ser consultado sobre a dose máxima de um medicamento, o resultado pode ser uma prescrição perigosa. Se alucinar ao descrever as contraindicações de um procedimento, pode contribuir para uma decisão clínica que prejudica um paciente. A fluência e a confiança do texto gerado tornam as alucinações especialmente traiçoeiras: ao contrário de um erro de cálculo, que pode parecer obviamente errado, uma afirmação alucinada num estilo médico convincente pode passar despercebida mesmo por um especialista distraído.

Desempenho em exames médicos: o que essa métrica realmente diz

Uma linha de pesquisa que atraiu enorme atenção midiática avaliou o desempenho de LLMs em exames médicos padronizados como o USMLE (United States Medical Licensing Examination) e o Revalida brasileiro. Resultados como “GPT-4 aprovado no USMLE” foram amplamente divulgados. É importante entender o que essa métrica captura e o que ela não captura.

Os exames médicos padronizados testam conhecimento factual, raciocínio clínico básico e resolução de problemas bem definidos em formato de múltipla escolha. Para um LLM treinado em enormes quantidades de texto médico, esse é exatamente o tipo de tarefa em que é esperado bom desempenho: o texto de preparação para exames médicos foi amplamente representado no corpus de treinamento. Aprovar um exame médico escrito não implica capacidade de realizar um exame físico, de integrar informações não verbais, de gerir incerteza clínica em tempo real, de se comunicar de forma sensível com um paciente em sofrimento, ou de exercer julgamento clínico em situações que fogem ao esperado.

Regulação de LLMs em saúde

A regulação de LLMs integrados a fluxos clínicos está em desenvolvimento acelerado em todo o mundo. No Brasil, a ANVISA regula dispositivos médicos por software (SaMD, Software as a Medical Device) pela RDC 657/2022. Um LLM integrado a um fluxo clínico — por exemplo, um sistema que analisa o prontuário e sugere diagnósticos diferenciais — pode se enquadrar na definição de SaMD, o que implicaria requisitos de registro, validação clínica, vigilância pós-mercado e rastreabilidade. A definição exata de quando um LLM de uso geral, acessado por um médico para fins clínicos, passa a ser um SaMD regulado é uma questão que os reguladores ainda estão respondendo — o que cria um vácuo regulatório que tem permitido a adoção clínica de ferramentas sem evidência de validação suficiente.

Equidade, viés e ética em IA na medicina

A discussão sobre ética em IA na medicina não é um apêndice filosófico que pode ser ignorado por quem se interessa apenas pela parte técnica. É parte constitutiva do problema. Os sistemas de IA são construídos sobre dados que refletem as desigualdades do mundo real — e, se não houver atenção explícita a esse fato, podem reproduzir e amplificar essas desigualdades em escala.

Viés algorítmico: o que é e como se manifesta

Viés algorítmico refere-se à tendência de um sistema de IA de produzir resultados sistematicamente desfavoráveis para certos grupos, em decorrência de problemas nos dados de treinamento, na arquitetura do modelo, na definição da tarefa ou na forma de avaliação. O termo “viés” aqui não tem o sentido estatístico técnico de erro sistemático de estimação; tem o sentido de discriminação injusta que afeta desproporcionalmente grupos já marginalizados.

O caso mais bem documentado de viés algorítmico de alto impacto em saúde é o do algoritmo de triagem de necessidade de cuidados desenvolvido pela empresa Optum e adotado em larga escala em hospitais americanos. O algoritmo usava o custo histórico de cuidados de saúde de cada paciente como proxy de necessidade clínica — a suposição sendo que pacientes com maior necessidade clínica geram maior custo de cuidados. O problema é que pacientes negros americanos, por razões estruturais bem documentadas — barreiras de acesso, desconfiança histórica do sistema de saúde, menor renda, menor cobertura de seguro —, historicamente geraram menor custo de cuidados de saúde do que pacientes brancos com condições clínicas equivalentes. O resultado foi que o algoritmo sistematicamente subestimava a necessidade de cuidados de pacientes negros: para obter a mesma probabilidade de ser encaminhado para um programa de gestão de doença crônica, um paciente negro precisava estar clinicamente mais doente do que um paciente branco. Um estudo de 2019 publicado na revista Science, conduzido por Obermeyer e colaboradores, estimou que cerca de 56% dos pacientes que deveriam ter sido identificados como de alto risco pelo algoritmo, mas não foram, eram negros.

Modelos de detecção de melanoma apresentam sistematicamente desempenho inferior em pacientes com fototipos escuros. A razão é consistente com o que você já sabe: datasets de imagens dermatoscópicas utilizados para treinamento são compostos majoritariamente por imagens de pacientes de fototipos claros. Com menos exemplos de lesões em pele escura, o modelo aprende representações menos robustas dessas situações.

Dataset shift e viés geográfico

O dataset shift descreve a situação em que os dados nos quais o modelo é aplicado na prática clínica têm uma distribuição diferente dos dados nos quais foi treinado. É um problema ubíquo em IA médica e uma das principais razões pelas quais modelos que parecem excelentes em estudos de validação podem decepcionar em implantação real.

Considere um modelo de predição de risco de readmissão hospitalar treinado em dados de um hospital universitário terciário de São Paulo. Esse hospital atende majoritariamente pacientes encaminhados de todo o estado, com perfil de comorbidades mais complexo, melhor documentação clínica e acesso a tecnologias diagnósticas avançadas. Quando esse modelo for aplicado num hospital geral do interior do Piauí, os dados de entrada — diagnósticos, exames, padrões de documentação — terão características muito diferentes. O modelo pode falhar de formas que não foram antecipadas, porque nunca viu dados como aqueles.

O viés geográfico é uma dimensão específica do dataset shift com importância particular para a saúde global. A grande maioria dos estudos de IA em medicina publicados em revistas de alto impacto usou dados coletados em países de alta renda — principalmente Estados Unidos, Reino Unido, China e alguns países europeus. A extensão desses modelos para contextos de saúde diferentes — como o sistema de saúde brasileiro com toda sua heterogeneidade regional — exige validação explícita, não pode ser assumida.

Explicabilidade (XAI)

A inteligência artificial explicável (XAI) é um campo dedicado a desenvolver técnicas que tornem os modelos de IA mais interpretáveis, seja modificando a arquitetura do modelo para que seja inerentemente mais transparente, seja aplicando técnicas post-hoc para gerar explicações de modelos opacos.

O LIME (Local Interpretable Model-agnostic Explanations) é uma técnica que, para uma dada previsão, gera uma explicação local: ela perturba ligeiramente a entrada, observa como a saída do modelo muda, e ajusta um modelo simples e interpretável (como uma regressão linear) para aproximar o comportamento do modelo complexo na vizinhança daquela entrada específica. A saída é uma lista de características da entrada e seus pesos na previsão — por exemplo, “para essa radiografia, a região do lobo inferior direito contribuiu positivamente para a previsão de pneumonia, enquanto a ausência de desvio traqueal contribuiu negativamente”.

O GRAD-CAM (Gradient-weighted Class Activation Mapping) é uma técnica específica para redes convolucionais de processamento de imagem. Ela usa os gradientes da previsão em relação às ativações das camadas convolucionais para gerar um mapa de calor que destaca as regiões da imagem que mais contribuíram para a previsão. Visualizações de GRAD-CAM são frequentemente apresentadas em artigos de IA em diagnóstico por imagem para mostrar que o modelo “está olhando para o lugar certo” — por exemplo, que a região de consolidação pulmonar contribuiu para o diagnóstico de pneumonia, não uma artefato de borda ou uma marca de câmera.

Ambas as técnicas são úteis, mas têm limitações fundamentais que é importante conhecer. A explicação gerada por LIME ou GRAD-CAM é uma aproximação do comportamento do modelo, não uma janela para seu interior. Um modelo pode produzir uma previsão correta pelos motivos errados — por exemplo, detectar pneumonia com base na marca do equipamento radiológico, que nas imagens de treinamento estava correlacionada com pacientes de um hospital com alta prevalência de pneumonia — e as técnicas de XAI podem não revelar isso claramente. A explicação também pode variar de forma inconsistente para entradas muito semelhantes, o que levanta dúvidas sobre sua robustez.

Responsabilidade: quem responde quando a IA erra?

A questão da responsabilidade em caso de erro clínico envolvendo IA é uma das mais debatidas no direito médico contemporâneo e permanece sem resposta consensual na maioria das jurisdições, incluindo o Brasil.

Há pelo menos três candidatos à responsabilidade: o médico que utilizou o sistema — e que, por ter usado uma ferramenta sem entender completamente suas limitações, pode ter falhado no dever de cuidado; a empresa desenvolvedora do sistema — que pode ter comercializado um produto com evidência de validação insuficiente; e o hospital ou serviço de saúde que decidiu implantar o sistema — tomando uma decisão institucional que expôs pacientes a um risco que não foi devidamente avaliado.

Para você, como médico em formação, a implicação prática é a seguinte: o fato de que um algoritmo produziu uma predição não transfere a responsabilidade clínica para o algoritmo ou para sua empresa desenvolvedora. Você permanece responsável pelas decisões que toma sobre o paciente, incluindo as decisões tomadas com base em informações fornecidas por sistemas de IA. Isso significa que usar um sistema de IA sem entender suas limitações — sua performance em subgrupos, sua taxa de falsos positivos e falsos negativos, suas condições de validade — não é uma justificativa plausível em caso de dano ao paciente. É uma responsabilidade profissional.

Regulação no Brasil

A regulação de IA em saúde no Brasil tem três pilares principais relevantes para o médico. A ANVISA regula dispositivos médicos por software pela RDC 657/2022, que define critérios para classificação e registro de SaMD (Software as a Medical Device). Um sistema de IA que faça diagnósticos, auxilie em decisões terapêuticas ou monitore condições clínicas pode ser enquadrado como SaMD e sujeito a registro. O Conselho Federal de Medicina (CFM) editou resoluções e pareceres sobre o uso de telemedicina e de sistemas computacionais em medicina, que tocam tangencialmente o uso de IA em diagnóstico. A LGPD (Lei Geral de Proteção de Dados, Lei 13.709/2018) regula o uso de dados pessoais, incluindo dados de saúde, que são classificados como dados sensíveis com proteção especial. O uso de dados de prontuários para treinamento de modelos de IA precisa ser compatível com as exigências da LGPD — o que levanta questões sobre consentimento, anonimização e finalidade.

Consentimento informado e direito à explicação

Uma questão ética que está ganhando atenção crescente é se os pacientes têm o direito de saber que um sistema de IA foi utilizado em seu diagnóstico ou tratamento — e, em caso afirmativo, qual o grau de explicação que lhes é devido. A discussão é análoga à que existe em outros contextos de uso de algoritmos em decisões que afetam indivíduos: decisões de crédito, sentenciamento penal, seleção de empregos.

Em medicina, a questão é particularmente sensível porque a relação médico-paciente é construída sobre confiança e transparência. Um paciente que descobre que seu diagnóstico foi influenciado por um algoritmo que ele não conhecia — e que esse algoritmo tem desempenho documentadamente inferior para seu grupo demográfico — tem razões sólidas para questionar a qualidade do cuidado que recebeu. A resposta ética e clinicamente adequada a essa questão ainda está sendo construída.

Como ler criticamente um estudo sobre IA

A literatura sobre IA em medicina cresce a um ritmo que impossibilita a leitura de todos os artigos relevantes. Mas a capacidade de ler criticamente os artigos que você encontrar — identificando rapidamente os pontos fortes, as limitações e os riscos de viés — é uma competência que você pode desenvolver com um framework estruturado e prática deliberada.

Sete perguntas para cada estudo

Primeira pergunta: qual é a tarefa clínica que o sistema resolve?

A tarefa deve ser específica, clinicamente relevante e claramente definida. “Detectar pneumonia em radiografias de tórax de adultos internados em pronto-socorro com radiografias de boa qualidade adquiridas com equipamentos digitais” é uma tarefa específica e bem definida. “Auxiliar médicos a diagnosticar doenças respiratórias” é vaga demais para permitir qualquer avaliação rigorosa. Quanto mais vaga a tarefa, mais difícil é avaliar se o sistema realmente funciona — e mais fácil é para resultados impressionantes em contextos muito específicos serem apresentados como avanços gerais.

Segunda pergunta: quais são os dados de treinamento?

Examine o volume do conjunto de dados, sua composição demográfica — quantos pacientes de cada sexo, faixa etária, etnia, nível socioeconômico foram incluídos —, sua origem geográfica e institucional, a qualidade dos rótulos — quem rotulou? Qual era a concordância entre rotuladores? Houve revisão independente? — e os possíveis vieses de seleção na composição do conjunto. Dados de um único centro, com predominância de certos grupos demográficos e rótulos atribuídos por um único especialista são fatores que reduzem substancialmente a confiança na generalização do modelo.

Terceira pergunta: qual é o grupo de comparação?

A afirmação “IA supera médico especialista” requer especificação cuidadosa: qual médico, com quais informações disponíveis, em quais condições de trabalho, com quanto tempo? Um sistema de IA comparado a médicos em plantonistas trabalhando em condições de pressa, sem as informações clínicas que normalmente estariam disponíveis, em tarefas isoladas de reconhecimento de padrão sem o contexto de um caso real — essa comparação diz muito menos sobre a utilidade clínica real do sistema do que sugere o título do artigo.

Quarta pergunta: qual é a métrica de avaliação?

A métrica de avaliação deve ser adequada ao problema clínico real. AUC-ROC é uma métrica razoável para discriminação geral, mas não responde às perguntas clinicamente relevantes: “se eu usar esse sistema, qual será minha sensibilidade e especificidade nos limiares de decisão que pretendo usar?” e “essa performance se mantém em subgrupos?” Desempenho agregado pode esconder disparidades substanciais entre grupos. Verifique sempre se há análise de subgrupos — e, se não houver, questione por quê.

Quinta pergunta: o estudo foi validado externamente?

A validação externa — teste do modelo em dados genuinamente independentes, coletados em instituições distintas da de treinamento — é o padrão mais elevado de evidência em IA médica e o mais raramente realizado. Um modelo que foi testado apenas em dados da mesma instituição onde foi treinado tem evidência de generalização muito mais fraca do que um modelo validado em múltiplos centros com características demográficas e institucionais diferentes.

Sexta pergunta: o modelo foi testado em condições reais de prática clínica?

Há uma distinção importante entre eficácia — desempenho do sistema em condições controladas de teste, tipicamente num estudo retrospectivo — e efetividade — impacto do sistema em desfechos clínicos reais quando implantado na prática. A grande maioria dos estudos de IA médica avalia eficácia; muito poucos avaliam efetividade. Um sistema pode ser altamente eficaz num conjunto de teste retrospectivo e ter impacto nulo ou negativo quando implantado num fluxo clínico real, por razões que incluem fadiga de alerta, resistência dos usuários, problemas de integração com sistemas existentes e comportamento inesperado em populações diferentes da de treinamento.

Sétima pergunta: quais são os conflitos de interesse?

A indústria de IA em saúde é um mercado bilionário, e os incentivos para publicar resultados positivos são poderosos. Verifique se os autores do estudo têm vínculos financeiros com a empresa desenvolvedora do sistema avaliado. Estudos independentes frequentemente mostram performance inferior à reportada pelos estudos conduzidos pelos desenvolvedores.

Aplicação ao estudo McKinney et al. (2020) sobre detecção de câncer de mama

Em 2020, McKinney e colaboradores do Google Health publicaram na Nature Medicine um estudo avaliando um sistema de aprendizado profundo para detecção de câncer de mama em mamografias. O resultado principal foi que o sistema reduziu as taxas de falso-negativo em 9,4% e de falso-positivo em 5,7% em comparação com radiologistas no conjunto de dados britânico, e reduziu as taxas de falso-negativo em 2,7% no conjunto americano.

Aplicando o framework: a tarefa era específica e clinicamente relevante — detecção de câncer de mama em mamografias de rastreamento. Os dados de treinamento incluíam mais de 91.000 casos de instituições britânicas e americanas — um volume substancial. O resultado foi descrito como superioridade em relação a radiologistas.

As críticas metodológicas foram substanciais. A validação externa usou dois conjuntos de dados, um britânico e um americano, mas o americano era composto por apenas 3.097 casos — um número pequeno para uma validação externa de um sistema destinado a uso em larga escala. O modelo foi avaliado sem as informações clínicas que radiologistas têm disponíveis na prática real — história prévia de mamografias, histórico familiar, resultados de biópsias anteriores —, o que favoreceu artificialmente o sistema em relação aos radiologistas da comparação. Análises de desempenho por subgrupo — raça, densidade mamária, faixa etária — não foram incluídas ou eram incompletas, o que impede avaliar se o sistema teria viés de desempenho em grupos específicos. Finalmente, o estudo foi conduzido retrospectivamente em dados arquivados, não em condições prospectivas de rastreamento real — a diferença entre eficácia e efetividade que discutimos acima.

Framework de leitura crítica

Ao ler qualquer estudo sobre IA em medicina, percorra estas sete perguntas: a tarefa está clara e é clinicamente relevante? Os dados de treinamento são representativos da população onde o sistema será usado? A comparação com médicos é justa? A métrica de avaliação responde às perguntas clínicas reais? Houve validação externa em dados genuinamente independentes? O modelo foi testado em condições de prática real, não apenas em dados retrospectivos? Quais são os conflitos de interesse dos autores?

Síntese

Mapa conceitual do módulo

flowchart TD
    IA["Inteligência Artificial"] --> RE["Sistemas baseados em Regras<br/>(Sistemas Especialistas)"]
    IA --> ML["Aprendizado de Máquina<br/>(Machine Learning)"]
    ML --> SUP["Supervisionado<br/>(pares entrada-saída rotulados)"]
    ML --> NSUP["Não Supervisionado<br/>(sem rótulos)"]
    ML --> REFOR["Por Reforço<br/>(tentativa e erro)"]
    SUP --> DL["Aprendizado Profundo<br/>(Deep Learning)"]
    DL --> CNN["Redes Convolucionais<br/>(imagens)"]
    DL --> TRANS["Transformers<br/>(texto, multimodal)"]
    TRANS --> LLM["LLMs<br/>(GPT-4, Claude, Gemini)"]
    CNN --> IMG["Diagnóstico por Imagem<br/>(radiografia, TC, dermatologia, patologia)"]
    LLM --> PLN["PLN Clínico<br/>(resumos, diferencial, farmacologia)"]
    SUP --> RISK["Predição de Risco<br/>(sepse, reinternação)"]
    NSUP --> CLUSTER["Subtipos de Doenças<br/>(perfis moleculares, comorbidades)"]
    REFOR --> DOSE["Otimização de Dosagem<br/>(quimioterapia, ventilação mecânica)"]
    ML --> ETICA["Riscos e Ética<br/>(viés, explicabilidade, regulação)"]
    ETICA --> VIES["Viés Algorítmico<br/>(Optum, melanoma em pele escura)"]
    ETICA --> XAI["Explicabilidade<br/>(LIME, GRAD-CAM)"]
    ETICA --> REG["Regulação<br/>(ANVISA RDC 657/2022, LGPD, FDA)"]

Conexão com o Módulo 6: Agentes de IA

Os modelos que você estudou neste módulo são, em sua maioria, sistemas passivos: eles recebem uma entrada, produzem uma saída e aguardam a próxima interação. Um algoritmo de detecção de retinopatia não toma decisões; ele fornece uma classificação. Um LLM não age no mundo; ele gera texto. O Módulo 6 irá apresentar os agentes de IA — sistemas que combinam modelos de linguagem com capacidade de planejamento, uso de ferramentas e execução autônoma de sequências de ações. Os agentes representam uma etapa além dos modelos passivos, com implicações ainda mais profundas para a medicina, e o entendimento sólido de como funcionam os modelos individuais que você construiu neste módulo é o pré-requisito indispensável para entender como os agentes os combinam e orquestram.

Glossário

Machine Learning (Aprendizado de Máquina)

Subcampo da inteligência artificial que desenvolve algoritmos capazes de aprender padrões a partir de dados, sem que as regras sejam explicitamente programadas. O modelo ajusta seus parâmetros durante o treinamento para minimizar erros em exemplos conhecidos.

Aprendizado Supervisionado

Paradigma de aprendizado de máquina em que o modelo aprende a partir de pares de (entrada, saída esperada) rotulados por humanos. Exemplos clínicos: classificação de imagens de fundo de olho com diagnóstico de retinopatia, predição de reinternação em 30 dias.

Aprendizado Não Supervisionado

Paradigma de aprendizado de máquina em que o modelo identifica estrutura nos dados sem rótulos externos. Usado para agrupamento de pacientes, identificação de subtipos moleculares de tumores e detecção de anomalias.

Aprendizado por Reforço

Paradigma em que um agente aprende a tomar decisões sequenciais por tentativa e erro, recebendo sinais de recompensa do ambiente. Aplicações clínicas incluem otimização de dosagem e personalização de protocolos de ventilação mecânica.

Deep Learning (Aprendizado Profundo)

Subcampo do aprendizado de máquina baseado em redes neurais com muitas camadas intermediárias. A profundidade permite aprender representações hierárquicas progressivamente mais abstratas — de bordas e texturas a padrões diagnósticos.

Rede Neural Artificial

Modelo computacional inspirado superficialmente nos neurônios biológicos, composto por camadas de unidades que realizam transformações matemáticas parametrizadas. Os parâmetros (pesos) são ajustados durante o treinamento para minimizar a função de perda.

CNN (Rede Convolucional)

Arquitetura de rede neural especializada para processamento de imagens, que aplica filtros convolucionais para detectar padrões locais em todas as posições da imagem. É a arquitetura dominante em diagnóstico por imagem médica.

Transformer

Arquitetura de rede neural baseada no mecanismo de atenção, que aprende a ponderar a relevância de cada elemento de uma sequência para interpretar cada outro elemento. É a base dos grandes modelos de linguagem e está sendo aplicada crescentemente em dados clínicos multimodais.

Overfitting (Sobreajuste)

Problema em que o modelo aprende não apenas os padrões genuínos dos dados de treinamento, mas também o ruído específico daquele conjunto. Um modelo com overfitting tem desempenho alto no treinamento mas pobre em dados novos — o que o torna perigoso em aplicações clínicas reais.

Generalização

Capacidade de um modelo de manter bom desempenho em dados que nunca viu durante o treinamento. A generalização é o que realmente importa em aplicações clínicas — e verificá-la exige validação em conjuntos de dados genuinamente independentes.

AUC-ROC

Área sob a curva ROC (Receiver Operating Characteristic). Métrica de discriminação que mede a probabilidade de o modelo atribuir pontuação maior a um caso positivo do que a um caso negativo. Varia entre 0,5 (sem poder discriminativo) e 1,0 (perfeito). Não revela desempenho em limiares específicos nem disparidades entre subgrupos.

Sensibilidade

Proporção de casos verdadeiramente positivos identificados corretamente pelo modelo. Também chamada de taxa de verdadeiros positivos. Responde à pergunta: “de todos os pacientes que têm a doença, quantos o modelo detectou?”

Especificidade

Proporção de casos verdadeiramente negativos identificados corretamente pelo modelo. Também chamada de taxa de verdadeiros negativos. Responde à pergunta: “de todos os pacientes que não têm a doença, quantos o modelo classificou corretamente como negativos?”

LLM (Large Language Model)

Modelo de linguagem de grande escala, treinado em enormes corpora de texto para predizer o próximo token. Exemplos incluem GPT-4, Claude, Gemini e LLaMA. Em medicina, são usados para resumos de prontuários, raciocínio diferencial, resposta a perguntas clínicas e simplificação de linguagem médica para pacientes.

Alucinação

Fenômeno em que um LLM gera afirmações factualmente incorretas de forma fluente e confiante, sem sinalizar a incorreção. É especialmente perigoso em medicina porque pode resultar em orientações incorretas sobre dosagens, interações farmacológicas ou diretrizes clínicas.

Viés Algorítmico

Tendência sistemática de um sistema de IA de produzir resultados desfavoráveis para certos grupos, em decorrência de problemas nos dados de treinamento, na definição da tarefa ou na avaliação. Exemplo documentado: o algoritmo da Optum que subestimava a necessidade de cuidados de pacientes negros americanos.

Dataset Shift

Situação em que os dados nos quais o modelo é aplicado na prática têm distribuição diferente dos dados de treinamento. É uma das principais causas de degradação de desempenho de modelos de IA quando transferidos de um contexto para outro — por exemplo, de hospitais de alta renda para serviços de atenção básica.

XAI (Explainable AI — IA Explicável)

Campo dedicado a tornar modelos de IA mais interpretáveis. Inclui técnicas como LIME (explicações locais por aproximação linear) e GRAD-CAM (mapas de calor de ativação em redes convolucionais). As explicações são aproximações, não janelas transparentes para o interior do modelo.

SaMD (Software as a Medical Device)

Software destinado a um ou mais fins médicos que realiza esses fins sem fazer parte de um dispositivo de hardware. Sistemas de IA integrados a fluxos diagnósticos ou terapêuticos podem se enquadrar nessa categoria, sujeitos à regulação da ANVISA (RDC 657/2022) no Brasil.

GRAD-CAM

Gradient-weighted Class Activation Mapping. Técnica de explicabilidade para redes convolucionais que usa os gradientes da previsão em relação às ativações das camadas convolucionais para gerar um mapa de calor destacando as regiões da imagem mais relevantes para a previsão do modelo.

Antes de seguir em frente

Você percorreu, neste módulo, o percurso completo da inteligência artificial aplicada à medicina: desde a desmistificação do que a IA é e não é, passando pelos fundamentos do aprendizado de máquina, pela arquitetura das redes neurais, pelas aplicações em imagem, prontuários e linguagem natural, até os problemas de viés, ética e regulação. O que conecta todas essas seções é uma pergunta central: como usar sistemas de IA de forma responsável, informada e crítica na prática clínica? A resposta exige o domínio técnico que você começou a construir aqui, combinado com a disposição de continuar fazendo as perguntas certas — sobre os dados, sobre os grupos de comparação, sobre os conflitos de interesse, sobre o que está em jogo para pacientes reais quando esses sistemas são implantados. Esse é o médico que este módulo, e esta disciplina, quer ajudar você a se tornar.