Agentes de Inteligência Artificial na Medicina

O que você será capaz de fazer ao final deste módulo:

Compreender a diferença fundamental entre um modelo de inteligência artificial passivo e um agente de IA autônomo; descrever a arquitetura funcional de um agente, incluindo seus ciclos de percepção, raciocínio, planejamento e execução; classificar agentes de IA segundo a taxonomia de Russell e Norvig; entender como grandes modelos de linguagem funcionam como núcleo cognitivo de agentes modernos; explicar os mecanismos de chamada de ferramentas (function calling) e geração aumentada por recuperação (RAG); descrever como sistemas multiagente colaboram para resolver tarefas complexas; reconhecer aplicações clínicas reais de agentes de IA em áreas como suporte à decisão clínica, monitoramento em UTI e manejo de doenças crônicas; avaliar criticamente agentes de saúde segundo critérios de segurança, validade e viabilidade; e analisar as implicações éticas, legais e regulatórias do uso de agentes autônomos em ambiente clínico.

De modelos passivos a agentes ativos: por que a distinção importa

Imagine que você é médico plantonista em uma UTI de médio porte, às três da manhã. Entre os vinte pacientes sob sua responsabilidade, há um senhor de sessenta e dois anos internado no segundo dia pós-operatório de uma cirurgia abdominal de grande porte. Nos últimos seis exames de leucócitos registrados no prontuário eletrônico, há uma tendência ascendente discreta. A frequência cardíaca aumentou dois batimentos por minuto a cada hora nas últimas quatro horas. A pressão arterial média caiu quatro mmHg em relação ao baseline da admissão. Nenhum desses valores individualmente cruza o limiar de alarme do monitor à beira-leito. Mas o conjunto, olhado por um clínico experiente, grita sepse em desenvolvimento.

Agora considere dois sistemas computacionais diferentes atuando nesse mesmo cenário. O primeiro é um modelo de aprendizado de máquina que, quando você o consulta manualmente, recebe os dados vitais e laboratoriais do paciente como entrada e devolve um número: a probabilidade estimada de sepse nas próximas seis horas é de 74%. O segundo é um agente de IA que, sem qualquer ação sua, já leu continuamente o prontuário eletrônico, identificou a mesma tendência que descrevemos, calculou o mesmo risco, buscou automaticamente no banco de dados do hospital os registros de pacientes com padrões semelhantes, consultou as diretrizes da Surviving Sepsis Campaign via acesso a uma base de conhecimento estruturada, e enviou a você, às 03h07, uma notificação no dispositivo móvel que você carrega: “Paciente leito 14: padrão compatível com sepse incipiente. Sugestão: hemoculturas antes da próxima dose de antibiótico, avaliação de lactato e revisão do esquema antibiótico atual.”

A diferença entre esses dois sistemas não é cosmética. O primeiro é uma ferramenta passiva: ele apenas responde quando consultado, e a responsabilidade de consultá-lo, de interpretar o resultado, de buscar as diretrizes e de formular a conduta é inteiramente sua. O segundo é um agente: ele age de forma autônoma no ambiente, persiste ao longo do tempo, toma iniciativa baseada em seus objetivos e raciocina em múltiplos passos antes de produzir uma saída.

Essa distinção é a mais importante deste módulo, porque ela muda completamente o perfil de risco, o perfil de benefício e as questões éticas envolvidas. Um modelo passivo que erra em sua estimativa não interfere no cuidado a menos que alguém o consulte e siga sua recomendação sem senso crítico. Um agente que erra pode agir de forma equivocada, talvez acionar um protocolo desnecessário, talvez atrasar um cuidado por não reconhecer uma condição que não estava em seu escopo. A autonomia que o torna mais útil também o torna mais perigoso quando falha.

No módulo 3, você estudou inteligência artificial do ponto de vista dos modelos: redes neurais artificiais, algoritmos de aprendizado supervisionado, reconhecimento de padrões em imagens médicas. Cada um desses sistemas tem em comum o fato de ser reativo no sentido mais estrito — recebe uma entrada, processa e produz uma saída, e para. Não persiste. Não age. Não planeja etapas futuras. A revolução dos agentes de IA representa exatamente o salto além desse paradigma, e é o que você estudará agora.

Vale também observar que essa transição do modelo passivo para o agente ativo não é apenas um avanço técnico — ela representa uma mudança profunda na relação entre o profissional de saúde e a ferramenta tecnológica. Quando você consulta um modelo passivo, você é o agente e o sistema é seu instrumento. Quando você trabalha com um agente de IA, a relação é de colaboração entre dois agentes: você e o sistema. Essa colaboração traz benefícios imensos, mas também exige que você mantenha uma postura ativa de supervisão, validação e senso crítico — características que este módulo pretende ajudá-lo a desenvolver.

O conceito formal de agente de IA

A definição mais precisa e amplamente adotada na literatura de inteligência artificial vem da obra de referência de Stuart Russell e Peter Norvig, Artificial Intelligence: A Modern Approach. Segundo Russell e Norvig, um agente é qualquer entidade que percebe seu ambiente por meio de sensores e age sobre esse ambiente por meio de atuadores. Essa definição aparentemente simples contém implicações profundas que vale desdobrar com cuidado.

O primeiro elemento da definição é a percepção: o agente recebe informações do ambiente, seja esse ambiente o mundo físico (no caso de um robô com câmeras e sensores táteis), seja um ambiente digital (no caso de um agente de software que lê bancos de dados, recebe mensagens ou consulta APIs). O que o agente percebe em um dado momento é chamado de percepção atual, e o conjunto de tudo que o agente percebeu ao longo de sua existência é chamado de sequência de percepções.

O segundo elemento é a ação: o agente não apenas observa, mas intervém no ambiente. Essa intervenção pode ser física (um robô cirúrgico que move um instrumento) ou informacional (um agente de software que envia uma notificação, preenche um formulário, atualiza um registro ou aciona um procedimento automatizado).

O terceiro elemento, implícito na definição mas tornado explícito pelos autores, é a função do agente: a relação entre sequências de percepções e ações. Formalmente, se denotarmos o espaço de todas as percepções possíveis como P e o espaço de todas as ações possíveis como A, a função do agente pode ser escrita como:

f: P^* \rightarrow A

onde P^* representa o conjunto de todas as sequências finitas de percepções. Isso significa que a ação que um agente toma em qualquer momento pode, em princípio, depender de tudo que ele percebeu desde que começou a operar — não apenas da percepção imediata atual.

Essa formulação matemática tem uma consequência prática muito importante para a medicina: um agente bem projetado não reage apenas ao estado atual do paciente, mas pode levar em conta a trajetória completa. O modelo passivo que calcula o risco de sepse vê apenas um snapshot dos dados; um agente sofisticado vê a evolução ao longo do tempo e reconhece tendências que não seriam visíveis em uma observação pontual.

O conceito de racionalidade também é central aqui. Russell e Norvig definem um agente racional como aquele que, para cada sequência de percepções, seleciona a ação que maximiza sua medida de desempenho (performance measure) — ou seja, o critério pelo qual avaliamos o quão bem o agente está fazendo seu trabalho. No contexto clínico, a medida de desempenho de um agente de suporte à decisão poderia ser formulada como a maximização de desfechos favoráveis ao paciente (sobrevida, redução de complicações) enquanto minimiza danos (procedimentos desnecessários, erros de medicação). Definir essa medida de forma precisa e completa já é em si um problema ético e técnico de primeira magnitude, como veremos na seção sobre ética.

É importante destacar que racionalidade não é sinônimo de perfeição nem de onisciência. O agente racional age da melhor forma possível dado o conhecimento disponível a ele. Se a informação que ele recebe está incompleta ou errada, suas ações podem ser subótimas mesmo sendo racionais dado o que ele sabe. Essa distinção importa para o médico porque, ao avaliar se um agente clínico falhou, a pergunta relevante não é apenas “o que deveria ter sido feito?”, mas “o que um agente racional faria com as informações que esse agente tinha acesso?”.

Existe ainda uma propriedade que Russell e Norvig denominam agente com estado de conhecimento parcialmente observável: o ambiente que o agente percebe pode não ser completamente visível a ele. Em um hospital, o agente que lê o prontuário eletrônico conhece apenas o que foi registrado no sistema — ele não sabe o que o paciente comentou informalmente com a enfermagem e não foi anotado, nem o que o familiar relatou na visita da tarde sem que ninguém transcrevesse para o prontuário. Essa parcialidade da observação é uma das razões pelas quais agentes clínicos nunca devem operar como tomadores de decisão completamente autônomos: o médico à beira-leito possui percepções que o sistema simplesmente não tem acesso, e o julgamento clínico humano integra essas percepções de uma forma que nenhum agente atual consegue replicar.

Arquitetura funcional de um agente

Agora que você tem a definição formal, é hora de entender como um agente realmente funciona por dentro. A arquitetura funcional de um agente descreve os componentes internos e os fluxos de informação que transformam percepções em ações.

O diagrama abaixo representa o ciclo completo de operação de um agente, desde a percepção do ambiente até a execução de ações e a observação dos resultados:

flowchart TD
    AMB["AMBIENTE<br/>(Prontuário Eletrônico, APIs,<br/>Sensores, Bancos de Dados)"]
    SENS["PERCEPÇÃO<br/>(Sensores / Interfaces de Entrada)<br/>— leitura de dados, eventos, mensagens"]
    REP["REPRESENTAÇÃO DO CONHECIMENTO<br/>(Memória de Trabalho + Base de Conhecimento)<br/>— estado interno, fatos, histórico, regras"]
    RAC["RACIOCÍNIO E PLANEJAMENTO<br/>(Motor de Inferência / LLM)<br/>— análise da situação, geração de hipóteses,<br/>seleção de ações, sequenciamento"]
    EXE["EXECUÇÃO<br/>(Atuadores / Interfaces de Saída)<br/>— notificações, chamadas de API,<br/>atualização de registros, acionamento de ferramentas"]
    OBS["OBSERVAÇÃO DOS RESULTADOS<br/>(Feedback Loop)<br/>— avaliação do efeito da ação,<br/>atualização do estado interno"]

    AMB -->|"percepções brutas"| SENS
    SENS -->|"percepções processadas"| REP
    REP -->|"contexto + objetivos"| RAC
    RAC -->|"plano de ação"| EXE
    EXE -->|"ações executadas"| AMB
    AMB -->|"resultado observado"| OBS
    OBS -->|"atualização do estado"| REP

    style AMB fill:#e3f2fd,stroke:#1976d2
    style SENS fill:#e8f5e9,stroke:#388e3c
    style REP fill:#fff3e0,stroke:#f57c00
    style RAC fill:#fce4ec,stroke:#c62828
    style EXE fill:#f3e5f5,stroke:#7b1fa2
    style OBS fill:#e0f7fa,stroke:#0097a7

Vamos percorrer cada componente com atenção, pois cada um deles tem implicações clínicas relevantes.

Percepção: os sensores do agente

A camada de percepção é responsável por capturar informações do ambiente e transformá-las em representações que o agente pode processar. Em um agente clínico, os “sensores” não são dispositivos físicos como microfones ou câmeras (embora possam ser), mas interfaces de leitura de dados: conexões com o sistema de prontuário eletrônico (EHR), acesso a resultados laboratoriais em tempo real, leitura de dados de monitores de beira-leito, recebimento de mensagens do sistema de enfermagem ou da farmácia, consulta a bases de dados de medicamentos, entre outros.

A qualidade da percepção limita diretamente a qualidade do raciocínio. Um agente cujo “sensor” de prontuário eletrônico lê apenas os últimos cinco registros de cada parâmetro vital está operando com uma visão truncada do paciente — o que pode ser suficiente para detectar deteriorações agudas, mas insuficiente para identificar tendências de médio prazo. A interoperabilidade dos sistemas de saúde é, portanto, não apenas uma questão técnica de TI hospitalar, mas um pré-requisito para agentes clínicos de qualidade.

Representação do conhecimento: a memória do agente

O segundo componente crítico é a representação do conhecimento. Aqui o agente armazena e organiza o que sabe: o estado atual do paciente, o histórico de percepções passadas, regras clínicas codificadas, diretrizes médicas estruturadas, e o resultado de consultas anteriores a ferramentas externas. Essa representação interna é frequentemente chamada de estado interno do agente ou modelo do mundo que o agente mantém.

A distinção entre agentes com e sem estado interno é fundamental na taxonomia de Russell e Norvig, como veremos na próxima seção. Um agente sem memória trata cada percepção como se fosse a primeira, incapaz de reconhecer que o paciente no leito 14 passou por uma cirurgia recente, que tem histórico de sepse prévia e que o padrão de deterioração atual é similar ao que o levou à UTI seis meses atrás. Um agente com memória robusta pode integrar todos esses contextos.

Raciocínio e planejamento: o núcleo cognitivo

O coração do agente é o componente de raciocínio e planejamento. É aqui que as percepções se transformam em hipóteses, que as hipóteses são avaliadas em função dos objetivos do agente, e que um plano de ação é gerado. Em agentes clássicos, baseados em regras, esse componente é um motor de inferência que aplica regras do tipo “SE pressão arterial média < 65 mmHg E lactato > 2 mmol/L ENTÃO ativar protocolo de sepse”. Em agentes modernos baseados em grandes modelos de linguagem, esse componente é o próprio modelo, capaz de raciocínio em linguagem natural com grau de flexibilidade e nuance muito superior ao de sistemas baseados em regras rígidas.

O planejamento é o subcomponente que permite ao agente antecipar etapas futuras: antes de agir, o agente pode simular internamente uma sequência de ações e prever seus resultados prováveis, selecionando o plano que maximiza sua medida de desempenho. Agentes mais sofisticados são capazes de replanejar dinamicamente quando uma ação produz um resultado inesperado — exatamente como um médico experiente que, ao perceber que a resposta do paciente não corresponde ao esperado pelo tratamento, revisa o diagnóstico e ajusta o plano.

Execução: os atuadores do agente

O componente de execução transforma o plano gerado pelo raciocínio em ações concretas no ambiente. Em um agente de software clínico, os atuadores típicos incluem: envio de notificações a médicos ou enfermeiros, preenchimento automático de formulários de solicitação de exames, chamadas a APIs externas (como consultar uma base de interações medicamentosas), atualização de campos no prontuário eletrônico, geração de relatórios ou resumos, e, em sistemas mais avançados, acionamento direto de protocolos hospitalares via integração com sistemas de ordens médicas computadorizadas (CPOE).

É precisamente aqui que o nível de autonomia do agente se torna mais delicado do ponto de vista clínico e ético. Há uma diferença enorme entre um agente que sugere ações (autonomia baixa), um agente que solicita confirmação antes de agir (autonomia média) e um agente que age diretamente sem intervenção humana (autonomia alta). O espectro adequado de autonomia depende do tipo de ação, do contexto clínico, da evidência de validade do agente e das salvaguardas jurídicas e regulatórias vigentes.

Tipos de agentes: da reatividade à aprendizagem

Russell e Norvig propõem uma taxonomia clássica de agentes que organiza diferentes arquiteturas de menor a maior sofisticação. Conhecer essa taxonomia é útil não apenas academicamente, mas porque ela permite categorizar os sistemas que você encontrará na prática clínica e entender suas capacidades e limitações inerentes.

O diagrama abaixo apresenta a hierarquia dessas arquiteturas de forma visual:

graph TD
    A["Agente Reativo Simples<br/>(Regras condição-ação,<br/>sem memória)"]
    B["Agente Reativo com<br/>Estado Interno<br/>(Baseado em Modelo)"]
    C["Agente Baseado<br/>em Objetivos"]
    D["Agente Baseado<br/>em Utilidade"]
    E["Agente de<br/>Aprendizado"]

    A -->|"adiciona memória<br/>do mundo"| B
    B -->|"adiciona representação<br/>explícita de metas"| C
    C -->|"adiciona função<br/>de utilidade"| D
    D -->|"adiciona capacidade<br/>de aprender com<br/>a experiência"| E

    style A fill:#ffecb3,stroke:#f9a825
    style B fill:#fff9c4,stroke:#f57f17
    style C fill:#c8e6c9,stroke:#2e7d32
    style D fill:#b3e5fc,stroke:#0277bd
    style E fill:#e1bee7,stroke:#6a1b9a

O agente reativo simples é o tipo mais elementar. Ele mapeia diretamente percepções em ações por meio de regras condição-ação: “SE o monitor registra taquicardia ENTÃO emitir alerta sonoro”. Não há memória, não há modelo do mundo, não há objetivo explícito além das regras codificadas. Sistemas de alarme de monitor de beira-leito tradicionais são agentes reativos simples. Sua vantagem é a previsibilidade e a transparência; sua limitação é a incapacidade de lidar com situações que não foram antecipadas nas regras.

O agente reativo com estado interno, ou agente baseado em modelo, supera essa limitação ao manter uma representação interna do mundo. Ele não apenas reage à percepção atual, mas raciocina sobre um modelo de como o mundo funciona e como o estado atual provavelmente evoluiu desde a última percepção. Um exemplo clínico seria um sistema que rastreia a tendência de deterioração de parâmetros vitais ao longo de horas, reconhecendo que a combinação de taquicardia discreta, febre baixa e pressão em queda lenta é mais preocupante do que qualquer um desses parâmetros isolado — porque o modelo interno do agente sabe que esses parâmetros em conjunto configuram um padrão típico de sepse incipiente.

O agente baseado em objetivos acrescenta uma representação explícita de metas. Em vez de apenas reagir a percepções ou manter um modelo do mundo, esse agente sabe o que quer alcançar e planeja suas ações em função dos objetivos. A diferença prática é que ele consegue selecionar entre múltiplas ações possíveis aquela que melhor o aproxima do objetivo, mesmo quando não há uma regra pré-definida para a situação atual. Um agente baseado em objetivos para manejo de antibioticoterapia poderia ter como objetivo atingir a erradicação do patógeno identificado no menor tempo possível com o menor risco de efeitos adversos, e racionar sobre quais antibióticos e doses mais prováveis atingem esse objetivo dado o perfil de resistência identificado.

O agente baseado em utilidade é uma extensão do agente baseado em objetivos. Em vez de simplesmente buscar atingir um objetivo binário (atingido ou não atingido), ele maximiza uma função de utilidade — uma representação matemática que atribui valores numéricos a diferentes estados do mundo, capturando não apenas se o objetivo foi atingido, mas quão bem foi atingido e com que custos. Isso permite que o agente tome decisões em contextos de objetivos conflitantes (por exemplo, maximizar efetividade do antibiótico e minimizar toxicidade renal ao mesmo tempo) e em situações de incerteza (por exemplo, quando há dois diagnósticos possíveis com probabilidades diferentes e tratamentos diferentes). A função de utilidade formaliza o que em medicina chamamos de raciocínio benefício-risco.

O agente de aprendizado é o tipo mais sofisticado e, em muitos sentidos, o mais poderoso. Ele começa com conhecimento limitado e melhora seu desempenho ao longo do tempo com base na experiência. Os componentes internos de um agente de aprendizado incluem um módulo de crítica (que avalia se as ações tomadas foram boas), um módulo de aprendizagem (que ajusta o comportamento interno com base na crítica), e um módulo de exploração (que gera comportamentos experimentais para descobrir melhores estratégias). Os modelos modernos de aprendizado por reforço, usados em sistemas como o AlphaFold para predição de estruturas proteicas e nos sistemas de otimização de radioterapia, são exemplos de agentes de aprendizado.

Para tornar essa taxonomia mais concreta, considere uma aplicação clínica progressivamente mais sofisticada para cada tipo. Um agente reativo simples para gestão de antibioticoterapia verificaria se o medicamento prescrito está na lista de antibióticos com restrição de uso e emitiria um alerta se estiver — ponto final. Um agente com estado interno acompanharia a evolução do paciente ao longo dos dias e detectaria que a febre não cedeu após 48 horas de antibioticoterapia, o que pode indicar resistência ou foco não drenado. Um agente baseado em objetivos, com a meta explícita de erradicar a infecção com o menor espectro antibiótico possível, sugeriria de-escalonamento quando o antibiograma retornasse com resultado de sensibilidade a um antibiótico de espectro mais estreito. Um agente baseado em utilidade ponderaria a efetividade esperada de cada esquema antibiótico contra o risco de efeitos adversos específicos do paciente (insuficiência renal, histórico de colite por Clostridioides difficile) e selecionaria o esquema com melhor relação benefício-risco. E um agente de aprendizado, ao longo de meses de operação em um hospital, aprenderia que aquele hospital específico tem uma taxa de resistência ao meropeném superior à média nacional para Klebsiella pneumoniae, ajustando suas recomendações iniciais de antibioticoterapia empírica de acordo.

A tabela abaixo resume as características principais de cada tipo:

Taxonomia de agentes segundo Russell e Norvig
Tipo de Agente	Memória	Modelo do Mundo	Objetivos Explícitos	Função de Utilidade	Aprendizado
Reativo Simples	Não	Não	Não	Não	Não
Reativo com Estado Interno	Sim	Sim	Não	Não	Não
Baseado em Objetivos	Sim	Sim	Sim	Não	Não
Baseado em Utilidade	Sim	Sim	Sim	Sim	Não
De Aprendizado	Sim	Sim	Sim	Sim	Sim

LLMs como motor de raciocínio: a revolução dos agentes modernos

Você estudou no módulo 3 como grandes modelos de linguagem (LLMs — Large Language Models) como o GPT-4, o Claude e o Gemini são treinados em enormes volumes de texto e aprendem a modelar a distribuição de linguagem humana, sendo capazes de gerar texto coerente, responder perguntas, raciocinar sobre problemas e produzir código de programação. O que talvez não tenha ficado completamente claro naquele módulo é o papel radicalmente novo que esses modelos passaram a desempenhar a partir de 2022: eles deixaram de ser apenas geradores de texto e passaram a funcionar como o núcleo cognitivo de agentes autônomos.

A transformação foi possibilitada por uma propriedade emergente que os LLMs de grande escala exibiram: a capacidade de decompor tarefas complexas em etapas, raciocinar sobre a solução de cada etapa, identificar quando precisam de informações externas e estruturar planos de ação em linguagem natural. Isso faz do LLM uma implementação altamente flexível do componente de raciocínio e planejamento que discutimos na seção anterior — mas diferente das abordagens simbólicas tradicionais, o LLM pode raciocinar sobre situações nunca vistas antes sem exigir que alguém tenha codificado regras explícitas antecipadamente.

Para entender o mecanismo, considere o que acontece quando você pede a um agente baseado em LLM que resolva um problema clínico: “Com base no prontuário do paciente João, identifique se há risco aumentado de sangramento antes de uma cirurgia eletiva amanhã.” O agente não executa essa tarefa em um único passo. Em vez disso, o LLM gera internamente um plano de raciocínio que pode soar assim: “Preciso verificar os anticoagulantes em uso. Preciso checar os exames de coagulação mais recentes. Preciso consultar a data do último INR. Preciso verificar se há histórico de sangramento documentado. Preciso consultar as diretrizes para o procedimento específico.” Cada um desses passos pode envolver uma chamada a uma ferramenta externa — e é exatamente o que a tecnologia de function calling viabiliza.

Essa arquitetura de agente baseada em LLM tornou-se tão central na IA aplicada que recebeu um nome próprio: ReAct (de Reasoning + Acting — Raciocínio + Ação), proposta em um artigo influente de Shunyu Yao e colaboradores em 2022. No paradigma ReAct, o agente alterna entre passos de pensamento (onde o LLM raciocina sobre o estado atual e decide o que fazer) e passos de ação (onde o LLM chama uma ferramenta ou emite uma resposta). Após cada ação, o resultado é retornado ao LLM como uma nova observação, que é incorporada ao contexto e informa o próximo passo de raciocínio. Esse ciclo continua até que o agente considere a tarefa concluída.

Uma outra arquitetura influente é a chamada Chain-of-Thought (CoT), ou Cadeia de Pensamento, na qual o LLM é incentivado a produzir um raciocínio explícito passo a passo antes de emitir uma resposta final. Estudos empíricos demonstraram que modelos instruídos a “pensar em voz alta” antes de responder cometem significativamente menos erros em tarefas de raciocínio lógico, matemático e de planejamento do que modelos que produzem respostas diretas. No contexto clínico, isso se traduz em agentes que não apenas dão uma recomendação, mas explicam o raciocínio que levou a ela — o que é central para a confiança e para a supervisão humana.

É interessante notar que essa capacidade de raciocínio explícito em múltiplos passos tem uma analogia direta com o processo de raciocínio clínico que você aprenderá e refinará ao longo de toda a sua formação. Quando um médico experiente raciocina sobre um caso complexo, ele não salta diretamente da queixa principal para o diagnóstico. Ele formula uma hipótese de trabalho, seleciona os dados mais discriminatórios para testá-la, atualiza suas probabilidades à medida que recebe resultados, considera hipóteses alternativas e só então formula uma conduta. O processo Chain-of-Thought em LLMs é uma formalização computacional de algo estruturalmente similar — o que pode explicar por que LLMs com essa capacidade tendem a ter desempenho superior em benchmarks de raciocínio clínico em comparação com modelos sem ela.

Um dado empírico relevante: em um estudo publicado no New England Journal of Medicine AI em 2023, modelos de linguagem grande instruídos com Chain-of-Thought demonstraram desempenho no exame de licenciatura médico norte-americano (USMLE) em torno de 60% sem qualquer treinamento específico para medicina — desempenho que superava o limiar de aprovação. Versões com raciocínio mais elaborado e acesso a ferramentas externas chegaram a valores ainda maiores. Esses números não significam que LLMs são melhores médicos do que você será — eles não têm empatia, não examinam o paciente fisicamente, não integram o contexto social e não têm julgamento moral. Mas eles indicam que a capacidade de raciocínio clínico formal desses modelos já é suficientemente robusta para fundamentar agentes de suporte à decisão em tarefas bem delimitadas.

Uma variação ainda mais sofisticada é o Tree-of-Thought (ToT), onde o agente explora múltiplas ramificações de raciocínio em paralelo, avalia cada uma delas e seleciona a mais promissora antes de continuar — uma analogia com o raciocínio diagnóstico diferencial: o médico não apenas segue uma linha de raciocínio, mas considera múltiplas hipóteses simultaneamente e vai coletando evidências que aumentam ou diminuem a probabilidade de cada uma.

O ponto mais importante para você guardar é que um LLM usado como motor de raciocínio de um agente não é o mesmo produto que você usa quando acessa uma interface de chat diretamente. No agente, o LLM está encapsulado dentro de uma arquitetura que define seus objetivos, lhe fornece ferramentas, controla o que ele pode e não pode fazer, e processa seu output de formas estruturadas. Essa camada arquitetural é o que diferencia um agente clínico seguro de um modelo de linguagem genérico que pode alucinar informações médicas sem verificação.

Ferramentas, function calling e RAG

Um dos avanços mais práticos e impactantes na construção de agentes baseados em LLM foi o desenvolvimento do mecanismo de function calling, ou chamada de ferramentas. Antes de explicar como funciona, é útil entender por que ele foi necessário.

Um LLM, por sua natureza, é um modelo estático: ele foi treinado até uma determinada data e o conhecimento que possui está “congelado” naquele momento. Além disso, ele não tem acesso direto a informações externas — não pode consultar o prontuário de um paciente específico, não sabe o resultado do exame que saiu há dez minutos, não conhece o estoque atual da farmácia hospitalar. Para que um agente seja útil em ambiente clínico real, ele precisa superar essas limitações, e é exatamente o que o function calling viabiliza.

O mecanismo funciona da seguinte forma: ao configurar um agente baseado em LLM, o desenvolvedor define um conjunto de ferramentas disponíveis — cada ferramenta é descrita para o modelo em linguagem natural, com seu nome, sua função e os parâmetros que aceita. Quando o LLM, em seu processo de raciocínio, conclui que precisa de uma informação que só pode ser obtida externamente, ele emite uma resposta estruturada indicando qual ferramenta deve ser chamada e com quais parâmetros. A arquitetura do agente intercepta essa resposta, executa a chamada real (que pode ser uma consulta ao banco de dados do hospital, uma requisição a uma API de interações medicamentosas, uma busca na literatura científica), e retorna o resultado para o LLM como parte do contexto. O LLM continua seu raciocínio com essa nova informação incorporada.

O diagrama abaixo ilustra o fluxo completo de um agente com ferramentas respondendo a uma consulta clínica:

sequenceDiagram
    participant M as Médico
    participant A as Agente (LLM)
    participant T1 as Ferramenta: Prontuário EHR
    participant T2 as Ferramenta: Base de Medicamentos
    participant T3 as Ferramenta: Base de Diretrizes
    participant T4 as Ferramenta: Calculadora Clínica

    M->>A: "Qual o risco de sangramento do paciente X antes da cirurgia amanhã?"
    A->>A: Raciocínio: "Preciso dos medicamentos em uso"
    A->>T1: buscar_medicamentos(paciente_id=X)
    T1-->>A: [Varfarina 5mg/dia, Aspirina 100mg/dia, Metformina 500mg 2x]
    A->>A: Raciocínio: "Varfarina presente. Preciso do INR atual."
    A->>T1: buscar_exame(paciente_id=X, exame="INR", periodo="últimos 7 dias")
    T1-->>A: INR = 2.8 (coletado há 2 dias)
    A->>A: Raciocínio: "INR elevado. Preciso consultar diretrizes para cirurgia com anticoagulante."
    A->>T3: buscar_diretriz(tema="anticoagulação perioperatória", procedimento="cirurgia abdominal eletiva")
    T3-->>A: Resumo da diretriz: INR > 1.5 contraindica cirurgia; considerar reversão com vitamina K
    A->>T4: calcular_risco_sangramento(INR=2.8, cirurgia="abdominal", uso_aspirina=true)
    T4-->>A: Score HAS-BLED adaptado: risco alto (> 3%)
    A->>A: Síntese final: INR de 2.8, risco alto de sangramento, diretriz indica reversão antes do procedimento
    A->>M: "Risco de sangramento perioperatório ALTO. INR atual de 2.8 (coletado há 2 dias) contraindica a cirurgia amanhã. A diretriz recomenda reversão com vitamina K oral ou endovenosa e reavaliação do INR antes do procedimento. Uso concomitante de Aspirina 100mg aumenta ainda mais o risco. Sugiro discussão com cirurgião e hematologista."

Observe como o agente realizou quatro chamadas de ferramentas distintas, integrou os resultados em um raciocínio coerente e produziu uma recomendação fundamentada — tudo de forma autônoma, sem que o médico precisasse buscar cada informação manualmente. Esse é o poder do function calling na prática clínica.

RAG: quando o agente precisa de conhecimento atualizado

O segundo mecanismo fundamental que você precisa entender é o RAG — Retrieval-Augmented Generation, ou Geração Aumentada por Recuperação. O problema que o RAG resolve é diferente do function calling: não se trata de buscar dados específicos do paciente, mas de fundamentar o raciocínio do agente em conhecimento médico atualizado, que não estava no treinamento do modelo ou que é muito específico para ter sido memorizado com fidelidade.

No RAG, antes de responder a uma consulta, o agente realiza uma busca em uma base de conhecimento externa — que pode ser um corpus de artigos científicos, diretrizes clínicas, bulas de medicamentos, protocolos hospitalares ou qualquer outro repositório de texto relevante. A busca identifica os trechos mais semanticamente relacionados à consulta, e esses trechos são inseridos no contexto enviado ao LLM. O modelo então gera sua resposta fundamentando-se naquele contexto concreto, em vez de depender exclusivamente do que aprendeu no treinamento.

Por que o RAG é especialmente relevante na medicina?

A medicina é um campo em que as evidências mudam rapidamente. Uma diretriz publicada há dois anos pode ter sido substituída por uma nova meta-análise. Um medicamento aprovado recentemente não existia quando o modelo foi treinado. Um protocolo específico do seu hospital não está em nenhum conjunto de treinamento público. O RAG permite que agentes clínicos se mantenham atualizados e contextualizados ao ambiente de prática específico onde são implantados, simplesmente expandindo ou atualizando a base de conhecimento que consultam — sem precisar retreinar o modelo inteiro.

A combinação de function calling (para dados específicos do paciente) e RAG (para conhecimento médico contextual e atualizado) constitui a espinha dorsal da maioria dos agentes clínicos sofisticados em desenvolvimento atualmente. Um agente que usa ambos os mecanismos pode, ao mesmo tempo, acessar os dados reais do paciente no prontuário e fundamentar sua análise nas evidências mais recentes disponíveis — aproximando-se de algo parecido com o que um médico especialista experiente faz quando consulta simultaneamente o histórico do paciente e a literatura para formular sua conduta.

Sistemas multiagente: quando um agente não é suficiente

Há situações em que uma tarefa é suficientemente complexa, ampla ou multidisciplinar para que um único agente não seja a solução mais adequada. Nesses casos, a arquitetura escolhida é um sistema multiagente — uma rede de agentes especializados que colaboram, comunicam-se e delegam tarefas uns aos outros.

A analogia clínica é perfeita: quando você recebe um paciente complexo na UTI, não é apenas você quem cuida dele. Há o intensivista, o infectologista, o nefrologista, o nutricionista, o fisioterapeuta respiratório, a enfermagem especializada, o farmacêutico clínico. Cada especialista traz conhecimento profundo em seu domínio; a coordenação entre eles é o que produz um cuidado de qualidade. Um sistema multiagente de IA replica essa estrutura: cada agente é especializado em um domínio, e um agente coordenador (às vezes chamado de orquestrador ou agente supervisor) é responsável por decompor as tarefas, delegar aos especialistas apropriados e integrar os resultados em uma resposta coerente.

O diagrama abaixo representa uma arquitetura multiagente para o manejo de um paciente com sepse grave:

graph TD
    ORCH["AGENTE ORQUESTRADOR<br/>(Coordenação e síntese final)"]

    AGP["Agente de<br/>Análise do Prontuário<br/>(histórico, comorbidades,<br/>medicamentos)"]
    AGV["Agente de<br/>Monitoramento Vital<br/>(tendências de sinais vitais,<br/>alertas de deterioração)"]
    AGL["Agente de<br/>Interpretação Laboratorial<br/>(hemograma, coagulação,<br/>biomarkers de infecção)"]
    AGF["Agente de<br/>Farmacologia Clínica<br/>(interações, ajuste de dose,<br/>antibiótico adequado)"]
    AGD["Agente de<br/>Diretrizes e Evidências<br/>(busca RAG em<br/>Surviving Sepsis Campaign)"]

    MED["Médico Responsável<br/>(supervisão humana,<br/>decisão final)"]

    ORCH --> AGP
    ORCH --> AGV
    ORCH --> AGL
    ORCH --> AGF
    ORCH --> AGD

    AGP -->|resultado| ORCH
    AGV -->|resultado| ORCH
    AGL -->|resultado| ORCH
    AGF -->|resultado| ORCH
    AGD -->|resultado| ORCH

    ORCH -->|recomendação integrada| MED
    MED -->|decisão e feedback| ORCH

    style ORCH fill:#fce4ec,stroke:#c62828
    style MED fill:#e8f5e9,stroke:#2e7d32
    style AGP fill:#e3f2fd,stroke:#1976d2
    style AGV fill:#fff3e0,stroke:#f57c00
    style AGL fill:#f3e5f5,stroke:#7b1fa2
    style AGF fill:#e0f7fa,stroke:#0097a7
    style AGD fill:#fff9c4,stroke:#f9a825

Há vantagens claras nessa arquitetura. A especialização permite que cada agente seja treinado, otimizado e validado em um domínio restrito — o que tende a produzir desempenho superior em comparação com um único agente generalista tentando dominar tudo. A paralelização possibilita que múltiplos agentes trabalhem simultaneamente, reduzindo o tempo de resposta. A modularidade facilita a atualização: se as diretrizes de sepse mudam, apenas o agente de diretrizes precisa ser atualizado, sem que os demais sejam afetados.

Mas os sistemas multiagente também introduzem desafios novos. A comunicação entre agentes precisa ser robusta e estruturada para que informações não se percam ou se distorçam ao serem passadas de um agente para outro. Os erros se propagam: se o agente de interpretação laboratorial produz uma análise incorreta, esse erro pode ser amplificado pelo agente orquestrador ao construir a recomendação final. A atribuição de responsabilidade por um erro torna-se mais difusa quando muitos agentes estão envolvidos — o que cria desafios jurídicos e éticos adicionais que analisaremos mais adiante.

Um desenvolvimento recente e muito promissor é o paradigma de sistemas multiagente com memória compartilhada, onde todos os agentes têm acesso a um repositório comum de informações sobre o paciente — um equivalente ao prontuário eletrônico dentro do sistema de agentes. Isso evita que cada agente opere com informações parciais e aumenta a coerência das recomendações produzidas pelo orquestrador.

Agentes de IA na prática clínica

Chegamos ao coração prático deste módulo. Até agora você entendeu o que são agentes, como funcionam internamente e quais arquiteturas os sustentam. Agora é hora de ver onde e como eles estão sendo aplicados na medicina — não em cenários hipotéticos de futuro distante, mas em sistemas que já existem, já foram estudados e, em alguns casos, já estão em uso clínico real.

Sistemas de suporte à decisão clínica (CDSS) baseados em agentes

Os sistemas de suporte à decisão clínica (Clinical Decision Support Systems — CDSS) existem há décadas. Os primeiros, desenvolvidos nas décadas de 1970 e 1980 (como o MYCIN, para diagnóstico de infecções bacterianas), eram sistemas especialistas baseados em regras explicitamente codificadas por especialistas humanos. Eles funcionavam, mas eram frágeis: qualquer situação não prevista pelas regras os deixava sem resposta, e a manutenção das regras à medida que o conhecimento médico evoluía era um trabalho contínuo e trabalhoso.

Os CDSS modernos baseados em agentes de IA representam um salto qualitativo. Em vez de regras estáticas, eles usam modelos aprendidos a partir de dados reais, com capacidade de generalizar para situações novas. Em vez de apenas verificar se condições lógicas são satisfeitas, eles estimam probabilidades, quantificam incertezas e ranqueiam hipóteses diagnósticas. E, nos sistemas mais avançados, funcionam de forma proativa — monitorando continuamente o paciente e alertando a equipe antes que uma deterioração se complete, em vez de apenas responder quando consultados.

Um exemplo concreto que já está em uso em hospitais de grande porte é o sistema Epic Sepsis Model, integrado ao prontuário eletrônico Epic. Ele monitora continuamente os dados dos pacientes internados e calcula em tempo real um score de risco de sepse, enviando alertas à equipe quando o score ultrapassa um limiar. Embora estudos recentes (incluindo uma análise prospectiva publicada no JAMA Internal Medicine em 2021) tenham mostrado que o modelo tem especificidade limitada — gerando um número significativo de alertas falsos positivos — sua existência e uso em escala real ilustram como agentes de monitoramento contínuo já fazem parte do cenário hospitalar contemporâneo.

Monitoramento contínuo em UTI e detecção precoce de deterioração

A UTI é provavelmente o ambiente clínico em que agentes de IA encontram maior densidade de oportunidade. Os pacientes críticos geram volumes enormes de dados em tempo real — frequência cardíaca, pressão arterial, saturação, frequência respiratória, temperatura, débito urinário, parâmetros ventilatórios, resultados laboratoriais que chegam a cada poucas horas — e o volume é grande demais para que uma equipe humana, por mais experiente que seja, monitore com atenção igualitária todos os pacientes o tempo todo.

Agentes de monitoramento contínuo em UTI são projetados especificamente para esse problema. Eles processam os dados de todos os pacientes de forma ininterrupta, detectam desvios de trajetória que sugerem deterioração iminente e alertam a equipe com antecedência suficiente para que intervenções precoces sejam possíveis. O padrão de sepse que descrevemos no início deste módulo é um caso clássico; outros exemplos incluem a detecção precoce de lesão renal aguda (com base em trajetórias de creatinina e débito urinário), a antecipação de extubações não programadas (com base em padrões de agitação e parâmetros respiratórios) e a identificação de arritmias nascentes antes que se tornem hemodinamicamente instáveis.

O sistema eICU da Philips, por exemplo, é uma plataforma de UTI remota que combina monitoramento em tempo real com análise automatizada de dados e suporte de especialistas remotos — uma arquitetura que integra agentes de monitoramento com teleconsulta humana, combinando as vantagens da vigilância automatizada ininterrupta com o julgamento clínico especializado.

Assistentes conversacionais para manejo de condições crônicas

As doenças crônicas — diabetes, hipertensão arterial, insuficiência cardíaca, doença pulmonar obstrutiva crônica — representam a maior carga de morbimortalidade global e o maior consumo de recursos de saúde. O desafio no manejo dessas condições não é principalmente o diagnóstico (que costuma ser direto) nem o plano terapêutico inicial (que segue diretrizes bem estabelecidas), mas sim a adesão e o acompanhamento longitudinal: garantir que o paciente tome seus medicamentos corretamente, monitore seus parâmetros em casa, reconheça sinais de alarme e ajuste seu comportamento de acordo com a evolução da doença.

Esse é um problema em que agentes conversacionais — chatbots sofisticados baseados em LLM, com memória de longo prazo sobre o histórico do paciente — têm potencial demonstrado. Um agente para pacientes diabéticos poderia, por exemplo, receber diariamente as medições de glicemia do paciente (por integração com um glicosímetro conectado), identificar padrões de hiperglicemia pós-prandial, recomendar ajustes dietéticos específicos com base no registro alimentar do paciente, e acionar a equipe médica quando os valores estão fora de controle por mais de três dias consecutivos. A interação se dá em linguagem natural, via aplicativo, tornando o monitoramento acessível e personalizado.

Estudos piloto com sistemas desse tipo, como o projeto Diabot e iniciativas similares em países escandinavos e no Reino Unido, mostraram melhorias na hemoglobina glicada, redução de hospitalizações e aumento de engajamento dos pacientes em comparação com o acompanhamento padrão. Os mecanismos pelos quais esses benefícios ocorrem incluem a disponibilidade contínua (o agente está disponível às 23h quando o paciente tem uma dúvida sobre se pode tomar o medicamento com o jantar), a personalização (o agente lembra do histórico específico do paciente e não fornece respostas genéricas) e a ausência do julgamento social (muitos pacientes se sentem mais à vontade para admitir lapsos de adesão a um sistema do que a um médico).

Triagem automatizada

A triagem de pacientes — a classificação da gravidade de cada caso e a priorização do atendimento — é uma função tradicional da enfermagem em pronto-socorros e UPAs. É um trabalho cognitivamente exigente, realizado sob pressão de tempo, com alto volume de casos e grande variabilidade de apresentações. Os erros de triagem têm consequências sérias: subtriagem (gravidade subestimada) pode levar à deterioração enquanto o paciente espera; supertriagem (gravidade superestimada) consome recursos de pacientes que precisam mais.

Agentes de triagem baseados em IA foram desenvolvidos para apoiar esse processo. Alguns sistemas — como o Babylon Health e o Ada Health — operam como agentes conversacionais que coletam a anamnese do paciente em linguagem natural (sintomas, duração, fatores associados, comorbidades), raciocinam sobre as hipóteses diagnósticas mais prováveis e calculam um nível de urgência. Esses sistemas não substituem a triagem humana, mas podem realizar uma pré-triagem antes que o paciente seja avaliado pela enfermagem — reduzindo o trabalho de coleta de informações básicas e identificando casos que precisam de atenção imediata antes mesmo de chegarem à fila.

Em contextos de baixa renda ou áreas remotas com acesso limitado a profissionais de saúde, agentes de triagem com níveis maiores de autonomia podem ter papel ainda mais relevante — funcionando como uma primeira linha de orientação para pacientes que de outra forma não teriam acesso a nenhuma avaliação clínica antes de horas ou dias de viagem até uma unidade de saúde.

Um desenvolvimento particularmente promissor nessa área é a integração de agentes de triagem com protocolos de telemedicina, tema que você estudou no módulo 4. Um agente pode realizar a anamnese inicial, calcular um índice de urgência e, se o caso assim o indicar, conectar automaticamente o paciente a um médico via videoconsulta — reduzindo o tempo de espera e tornando a triagem mais eficiente. Se o caso não exige atenção médica imediata, o agente pode fornecer orientações de autocuidado baseadas em diretrizes, recomendar retorno em caso de piora e registrar o contato para acompanhamento. Esse modelo híbrido — agente para pré-triagem e orientação, médico para avaliação dos casos selecionados — é a direção em que a maioria das empresas de saúde digital está avançando, e representa uma das oportunidades mais reais para HealthTechs brasileiras endereçando o desafio de acesso à saúde em um país de dimensões continentais.

Coordenação de cuidado e gestão de prontuário

Um agente de coordenação de cuidado tem como objetivo garantir que todos os elementos de um plano terapêutico sejam executados: consultas agendadas, exames coletados e revisados, encaminhamentos feitos, medicamentos renovados, comunicação entre especialistas realizada. Para um paciente com múltiplas comorbidades que acompanha com cardiologista, endocrinologista e nefrologista simultaneamente, esse trabalho de coordenação é substancial e frequentemente falha na prática real — gerando duplicidade de exames, lacunas de comunicação e atrasos no ajuste de tratamentos.

Agentes de coordenação podem integrar-se ao prontuário eletrônico para monitorar o status de cada elemento do plano terapêutico, enviar lembretes automatizados ao paciente, notificar o médico sobre exames pendentes de revisão, e identificar inconsistências entre as condutas de diferentes especialistas (por exemplo, um cardiologista prescrevendo um beta-bloqueador e um pneumologista prescrevendo um broncodilatador que antagoniza seus efeitos — uma interação que o agente de farmacologia clínica poderia identificar automaticamente).

Documentação clínica assistida por agentes

Um caso de uso que está crescendo rapidamente e já tem implementações comerciais em larga escala é a documentação clínica assistida por agentes. A documentação é reconhecidamente uma das tarefas que mais consomem tempo dos médicos — estudos norte-americanos estimam que médicos de atenção primária gastam entre um e dois terços do seu tempo de trabalho em tarefas de documentação e administração, em detrimento do tempo direto com pacientes.

Agentes de documentação clínica, como o sistema DAX (anteriormente Dragon Ambient eXperience, da Nuance/Microsoft), usam tecnologia de reconhecimento de fala e LLMs para escutar a consulta médica (com consentimento explícito do paciente), extrair as informações relevantes em tempo real e gerar automaticamente um rascunho da nota clínica estruturada no formato do prontuário eletrônico. O médico revisa e assina o rascunho em vez de digitá-lo do zero — economizando em média vinte minutos por consulta em estudos de implementação.

Do ponto de vista arquitetural, esse é um exemplo de agente que combina vários dos componentes que estudamos: percepção via áudio, raciocínio para extrair informações médicas relevantes de uma conversa em linguagem natural, e execução via preenchimento automatizado no prontuário eletrônico. A qualidade do raciocínio é avaliada pela acurácia da transcrição e da estruturação das informações — estudos iniciais mostram altas taxas de precisão para entidades clínicas padronizadas (diagnósticos, medicamentos, alergias), mas desempenho mais variável para informações contextuais complexas que requerem inferência.

Como avaliar criticamente um agente de IA em saúde

Você será, ao longo de sua carreira, confrontado repetidamente com afirmações sobre agentes de IA que “revolucionarão” algum aspecto da medicina. Algumas dessas afirmações serão verdadeiras e importantes; muitas serão prematuras ou exageradas. Ter um framework de avaliação crítica é indispensável para distinguir umas das outras.

O framework que apresento aqui é organizado em cinco dimensões. Cada dimensão gera perguntas concretas que você deve ser capaz de formular ao avaliar qualquer sistema de agente de IA em saúde.

Dimensão 1: Validade clínica

A pergunta fundamental é: o agente foi validado em populações e contextos similares ao contexto em que será implantado? Validade interna (o sistema funciona nos dados em que foi desenvolvido) é muito diferente de validade externa (o sistema funciona em um hospital diferente, com uma população diferente, com um sistema de prontuário eletrônico diferente). Muitos sistemas de IA em saúde foram desenvolvidos e publicados com métricas impressionantes de acurácia, mas testados em retrospecto nos mesmos dados usados para o desenvolvimento — o que superestima dramaticamente o desempenho real. Pergunte: o sistema foi testado prospectivamente? Em múltiplos centros? Com qual desfecho como referência padrão?

Dimensão 2: Impacto nos desfechos do paciente

Acurácia diagnóstica não é o mesmo que melhora de desfecho. Um sistema pode classificar corretamente 90% dos casos de risco de sepse e ainda assim não melhorar a mortalidade se os alertas que ele gera não resultarem em ações clínicas adequadas. A pergunta relevante não é apenas “o sistema detecta bem o problema?”, mas “o uso do sistema, integrado ao processo de cuidado real, produz melhores resultados para os pacientes?” Estudos de implementação com desfechos clinicamente relevantes (mortalidade, internações evitáveis, tempo de diagnóstico, qualidade de vida) são o padrão de evidência que justifica adoção em larga escala.

Dimensão 3: Transparência e explicabilidade

Um agente que produz uma recomendação sem explicação não é adequado para uso clínico autônomo, porque não permite que o médico avalie se a recomendação faz sentido para aquele paciente específico. A explicabilidade — a capacidade do sistema de apresentar o raciocínio que levou à sua conclusão — não é apenas uma conveniência técnica; é um requisito para a supervisão humana significativa. Agentes baseados em LLM com raciocínio tipo Chain-of-Thought têm vantagem aqui em relação a sistemas de “caixa preta” como redes neurais profundas sem mecanismos de explicação.

Dimensão 4: Segurança e gestão de falhas

Todo sistema falha. A pergunta relevante não é se o agente pode falhar, mas como ele falha e o que acontece quando falha. Um sistema bem projetado falha de forma segura — quando incerto, abstém-se de recomendar em vez de recomendar com falsa confiança; quando encontra uma situação fora de seu escopo, encaminha para supervisão humana em vez de extrapolar. A taxa de falsos positivos é tão importante quanto a taxa de verdadeiros positivos: um sistema que gera muitos alarmes falsos produz fadiga de alarme e leva as equipes clínicas a ignorar os alertas — o que pode ser mais perigoso do que não ter o sistema.

Dimensão 5: Equidade e viés algorítmico

Agentes de IA aprendem a partir de dados históricos, e os dados históricos de saúde refletem as desigualdades estruturais do sistema de saúde. Um modelo treinado predominantemente em dados de pacientes de alta renda, em hospitais universitários de excelência, pode ter desempenho significativamente inferior em populações diferentes — e esse desempenho inferior pode não ser detectado se o sistema não for testado nessas populações. O famoso caso do algoritmo de alocação de recursos de saúde publicado na Science em 2019 demonstrou que um sistema amplamente usado nos EUA associava necessidade de cuidado a custo histórico de saúde — o que sistematicamente subestimava a necessidade de pacientes negros, que historicamente têm menor acesso ao sistema e portanto menores custos históricos, não porque sejam mais saudáveis, mas porque receberam menos cuidado.

Ética, segurança e responsabilidade

A discussão ética sobre agentes de IA em medicina não é um adendo de fim de capítulo — ela é estruturante. As questões éticas moldam quais agentes devem ser construídos, como devem ser implantados e quem é responsável pelo que acontece quando eles erram. Esta seção explora essas questões com a seriedade que elas merecem.

O problema da supervisão humana e da autonomia

O debate mais fundamental na ética dos agentes clínicos gira em torno do grau adequado de autonomia. Em um extremo, um agente completamente autônomo, que age sem supervisão humana, maximiza eficiência e velocidade, mas elimina o julgamento clínico humano do processo. No outro extremo, um agente que apenas sugere, sem jamais agir, minimiza o risco de erros autônomos, mas impõe um ônus significativo sobre as equipes que precisam revisar e aprovar cada sugestão — o que pode, paradoxalmente, reduzir a adesão e tornar o sistema pouco útil na prática.

O conceito de Human-in-the-Loop (HITL) descreve sistemas projetados para manter o humano como decisor final em pontos críticos do processo, enquanto permitem que o agente atue autonomamente em tarefas de menor risco. A implementação adequada do HITL exige identificar, para cada tipo de ação, qual o risco associado à autonomia completa do agente e qual o custo da interrupção para confirmação humana — e calibrar o grau de autonomia em função desse balanço.

Uma forma útil de pensar sobre o espectro de autonomia usa quatro níveis. No primeiro nível — autonomia de sugestão — o agente produz recomendações que o médico pode aceitar, modificar ou rejeitar; a ação final sempre depende do humano. No segundo nível — autonomia de alerta — o agente toma iniciativa de notificar sem esperar ser consultado, mas não executa ações concretas além da notificação. No terceiro nível — autonomia de execução supervisionada — o agente executa ações concretas (como solicitar um exame ou ajustar uma dose) após aprovação explícita do médico. No quarto nível — autonomia plena — o agente age sem confirmação humana, reservando o contato humano apenas para situações excepcionais. Em medicina, os níveis três e quatro precisam de validação rigorosa e enquadramento regulatório antes de serem adotados em qualquer contexto real de cuidado.

A Organização Mundial da Saúde, em seu guia de ética para inteligência artificial em saúde publicado em 2021, estabelece como princípio que a autonomia humana deve ser preservada nas decisões de saúde, e que sistemas de IA devem ser projetados para empoderar, e não substituir, o julgamento clínico. Isso não é uma afirmação idealista — é uma diretriz operacional com implicações concretas de design: o agente deve apresentar suas recomendações de forma que o médico possa avaliá-las criticamente, deve ser capaz de explicar seu raciocínio, e deve ser transparente sobre seus limites de confiança.

Responsabilidade jurídica por erros de agentes

Quando um agente de IA participa de uma decisão clínica que resulta em dano ao paciente, quem é responsável? Essa é uma das questões jurídicas mais complexas e menos resolvidas do direito médico contemporâneo. As respostas possíveis incluem: o médico que seguiu a recomendação do agente, o hospital que implantou o sistema, o desenvolvedor que o programou, ou o fabricante do modelo de linguagem base.

A resposta depende, em grande medida, do nível de autonomia do agente e da forma como foi apresentado ao médico. Se o agente foi apresentado como uma ferramenta de apoio à decisão (não como um tomador de decisão autônomo), e o médico o seguiu sem exercer julgamento crítico, a responsabilidade pode recair sobre o médico por abdição do dever de cuidado. Se o agente agiu de forma autônoma, sem qualquer intervenção ou aprovação humana possível, o sistema pode ser considerado um produto defeituoso, e a responsabilidade pode recair sobre o desenvolvedor ou implantador.

No Brasil, o Conselho Federal de Medicina publicou a Resolução CFM 2.227/2018 (posteriormente revogada pela CFM 2.314/2022) e a Resolução CFM 2.314/2022, que estabelece as condições para prática da telemedicina — documentos que tocam tangencialmente na questão da responsabilidade, mas que ainda não abordam diretamente os agentes autônomos de IA. O marco regulatório brasileiro para dispositivos de IA em saúde ainda está em construção, e é provável que você, como médico formado hoje, veja essa regulamentação se consolidar ao longo de sua vida profissional.

Vieses algorítmicos e equidade em saúde

Já mencionamos o viés algorítmico na seção sobre avaliação crítica, mas é importante aprofundar as implicações éticas. Vieses em agentes de IA em saúde podem amplificar desigualdades existentes. Um sistema de triagem que subestima sistematicamente a gravidade de pacientes negros ou de baixa renda — porque foi treinado em dados de populações diferentes e nunca foi testado nessas populações — não é apenas impreciso. Ele é injusto. E a injustiça sistêmica mediada por algoritmo é, em muitos sentidos, mais insidiosa do que a injustiça individual: ela é invisível, é escalonável para milhares de pacientes simultaneamente, e pode parecer objetiva e neutra precisamente porque foi produzida por um algoritmo.

O princípio ético de justiça exige que sistemas de IA em saúde sejam desenvolvidos e validados com atenção explícita à equidade — garantindo que o desempenho seja consistente entre subgrupos populacionais relevantes, que os dados de treinamento incluam representação adequada de populações marginalizadas, e que os resultados desequânimes sejam identificados e mitigados antes da implantação ampla.

Consentimento informado e transparência com o paciente

Quando um agente de IA participa do cuidado de um paciente — seja fazendo recomendações ao médico, seja interagindo diretamente com o paciente —, o paciente tem o direito de saber disso? A resposta ética e jurídica convergente é: sim. O consentimento informado, em sua formulação contemporânea, exige que o paciente compreenda o processo pelo qual as decisões sobre seu cuidado são tomadas. Se um algoritmo está participando desse processo de forma significativa, o paciente deve ser informado.

A transparência com o paciente não significa que o médico precise explicar os detalhes técnicos de como o LLM funciona. Mas significa que o paciente deve saber que um sistema computacional participou da análise do seu caso, que deve ter a oportunidade de perguntar sobre isso, e que a decisão final sempre é de um profissional humano responsável. Em sistemas onde o agente interage diretamente com o paciente (chatbots de saúde, assistentes de manejo de doença crônica), deve ser sempre claro para o usuário que está interagindo com um sistema de IA, não com um médico humano.

Alucinação e a questão da confiabilidade

Um problema específico dos agentes baseados em LLM que merece discussão explícita é a alucinação: a tendência desses modelos de produzir afirmações factualmente incorretas com aparência de confiança. Um LLM pode citar um artigo científico que não existe, inventar um mecanismo bioquímico que não foi descrito na literatura, ou afirmar que um medicamento tem uma indicação que ele não tem — e fazê-lo na mesma voz fluente e segura com que produz informações corretas.

Em um contexto de chat educacional, uma alucinação é um problema corrigível: o usuário pesquisa a informação e descobre o erro. Em um contexto de agente clínico com acesso a prontuário e capacidade de acionar ações, uma alucinação pode ter consequências diretas para o paciente. Por isso, a mitigação da alucinação é uma das prioridades máximas no desenvolvimento de agentes médicos.

As estratégias principais incluem: o uso de RAG para fundamentar as respostas em fontes verificadas (o agente cita a diretriz ou o artigo de onde extraiu a informação, em vez de confiar na memória do modelo); o uso de verificação cruzada por um segundo agente (um agente crítico que avalia a resposta do agente principal em busca de inconsistências); a restrição do escopo de atuação (o agente só responde dentro de um domínio bem definido, e declina perguntas fora desse domínio); e a calibração explícita da incerteza (o agente produz uma estimativa de confiança junto com cada afirmação, sinalizando quando está operando em terreno incerto). Nenhuma dessas estratégias elimina completamente as alucinações, mas combinadas podem reduzir sua frequência e seu impacto a níveis aceitáveis para contextos clínicos específicos.

Privacidade e segurança de dados

Agentes de IA clínicos operam sobre os dados mais sensíveis que existem: informações de saúde. O prontuário médico contém diagnósticos, medicamentos, histórico familiar, condições de saúde mental, histórico sexual, dados genéticos — informações cuja exposição indevida pode ter consequências devastadoras para o paciente. Agentes que processam esses dados precisam operar sob os mais rigorosos padrões de segurança da informação.

No Brasil, a Lei Geral de Proteção de Dados (LGPD) — Lei 13.709/2018 — classifica dados de saúde como dados sensíveis, sujeitos a um regime de proteção mais rigoroso do que os dados pessoais comuns. Qualquer sistema de agente de IA que processe dados de saúde de pacientes brasileiros deve ser desenvolvido e implantado em conformidade com a LGPD, incluindo as exigências de base legal para o tratamento, limitação de finalidade, minimização de dados e garantia de direitos dos titulares. No contexto internacional, o regulamento europeu GDPR e o HIPAA norte-americano estabelecem padrões similares com suas especificidades.

Ponto de atenção para sua prática futura:

A responsabilidade ética pelo uso adequado de agentes de IA não recai apenas sobre os desenvolvedores e gestores hospitalares. Você, como médico, tem responsabilidade individual de compreender os sistemas de IA que usa no seu trabalho clínico, de exercer julgamento crítico sobre suas recomendações, de informar seus pacientes adequadamente, e de reportar erros e problemas de desempenho — contribuindo para o processo contínuo de melhoria e segurança desses sistemas.

Conexão com seu projeto de startup

Neste ponto do semestre, você já tem um projeto de HealthTech em desenvolvimento com seu grupo. O módulo de agentes de IA abre um leque de possibilidades que vale considerar ativamente, tanto para startups que ainda não incorporaram IA quanto para aquelas que já usam modelos passivos.

A pergunta central que seu grupo deve se fazer é: existem processos no fluxo de cuidado que a nossa solução aborda que se beneficiariam de autonomia e de ação proativa, em vez de apenas resposta a consultas? Se sua startup propõe uma solução para acompanhamento de pacientes com diabetes, um modelo que apenas calcula o risco de hipoglicemia quando o médico o consulta é significativamente menos valioso do que um agente que monitora continuamente as medições do paciente, identifica tendências de risco, e envia um alerta proativo ao médico e ao paciente quando a trajetória sugere um episódio iminente.

Ao considerar a incorporação de agentes em sua solução, seu grupo deve endereçar explicitamente quatro dimensões que os juízes e investidores de pitch irão invariavelmente perguntar.

A primeira dimensão é o problema que o agente resolve: qual a dor clínica específica que a autonomia do agente alivia? Quantificar essa dor em termos de tempo perdido, erros evitáveis, custo ou desfecho do paciente é essencial para justificar a complexidade adicional que um agente traz.

A segunda dimensão é o nível de autonomia proposto: o agente sugere, notifica, solicita confirmação, ou age diretamente? Justifique por que o nível escolhido é adequado ao contexto clínico e ao perfil de risco da ação.

A terceira dimensão é como o agente será validado: quais dados você usará para demonstrar que o agente funciona? Qual o desfecho que você medirá? Como você identificará e mitigará vieses no sistema?

A quarta dimensão é como o agente lida com falhas: o que acontece quando o agente não tem certeza? Quando encontra um caso fora de seu escopo? Quando a ação que deveria tomar não é possível por alguma falha técnica? Agentes bem projetados degradam graciosamente — falham de forma segura, encaminhando para supervisão humana em vez de travar ou agir de forma imprevisível.

Se sua startup não está diretamente relacionada à aplicação de agentes de IA, este módulo ainda é relevante para você. Toda HealthTech que coleta dados de pacientes, que interopera com prontuários eletrônicos, que propõe intervenções baseadas em análise de dados, será inevitavelmente tocada pelos agentes de IA ao longo dos próximos anos — seja porque seus concorrentes os incorporarão, seja porque os sistemas de saúde com que sua solução precisará integrar-se passarão a ser mediados por eles. Compreender como os agentes funcionam é compreender o ecossistema digital da saúde em que sua solução existirá.

Síntese do módulo

Pontos-chave do Módulo 06 — Agentes de Inteligência Artificial:

A distinção fundamental que este módulo estabelece é entre um modelo de IA passivo — que responde apenas quando consultado — e um agente de IA, que percebe o ambiente de forma autônoma, raciocina sobre suas percepções, planeja ações em múltiplos passos e executa essas ações sem esperar ser consultado. Essa distinção tem implicações práticas, clínicas e éticas de primeira magnitude.

A arquitetura de um agente inclui quatro componentes essenciais: percepção (leitura de dados do ambiente), representação do conhecimento (estado interno e modelo do mundo), raciocínio e planejamento (o núcleo cognitivo que gera planos de ação), e execução (a realização concreta das ações no ambiente), com um ciclo de feedback que permite ao agente aprender com os resultados de suas ações.

A taxonomia de Russell e Norvig organiza os agentes em cinco tipos de crescente sofisticação: reativo simples, reativo com estado interno (baseado em modelo), baseado em objetivos, baseado em utilidade, e de aprendizado. Cada tipo representa um grau maior de capacidade de raciocinar sobre o mundo e de tomar decisões em função de metas e preferências.

Os grandes modelos de linguagem (LLMs) como GPT-4 e Claude passaram a funcionar como núcleo cognitivo de agentes modernos por meio de paradigmas como ReAct e Chain-of-Thought, que lhes permitem raciocinar explicitamente em múltiplos passos antes de agir. Os mecanismos de function calling e RAG estendem suas capacidades para dados em tempo real e conhecimento médico atualizado.

Sistemas multiagente, onde múltiplos agentes especializados colaboram sob um orquestrador, permitem abordar tarefas clínicas complexas que exigem conhecimento multidisciplinar — mas introduzem desafios de coordenação, propagação de erros e atribuição de responsabilidade.

As aplicações clínicas já em uso ou em estudo avançado incluem CDSS proativos para sepse e deterioração clínica, assistentes de manejo de doenças crônicas, triagem automatizada e coordenação de cuidado. A avaliação crítica de qualquer sistema exige perguntar sobre validade externa, impacto em desfechos, transparência, gestão de falhas e equidade.

As questões éticas abrangem supervisão humana, responsabilidade jurídica por erros, vieses algorítmicos, consentimento informado e proteção de dados — todas dimensões que o médico contemporâneo precisa dominar, não apenas o desenvolvedor de tecnologia.