Docente Universitário, Doutorado em Bioengenharia e Aluno de Medicina

O Potencial e os Perigos dos Modelos de Linguagem em Grande Escala (LLMs) na Investigação Clínica

Os modelos de linguagem em grande escala (LLMs), como o GPT, LLaMA, Claude e Gemini, têm demonstrado um potencial revolucionário na investigação clínica, reduzindo tempo, custos e erros associados à extração ou introdução manual de informação. No entanto, apesar dos benefícios, existem desafios significativos já observados, incluindo a diminuição do pensamento crítico, a propagação de vieses e alucinações dos modelos. Como consequência, existe um comprometimento direto do método científico. Neste sentido, a implementação de diretrizes apropriadas, como as diretrizes CANGARU, é recomendada.

Nos últimos anos, os LLMs têm sido testados em quase todos os aspetos do ciclo de vida da investigação e prática médica, desde a geração de ideias até a revisão e resumo de manuscritos. Um dos usos mais promissores é a extração de dados de textos não estruturados em registos eletrónicos de saúde. Recentemente, demonstrou-se que vários LLMs superam métodos tradicionais de processamento de linguagem natural na abstração de informações de relatórios patológicos. A título de exemplo, o ChatGPT alcançou uma precisão de 89% na extração de dados relacionados com tumor patológico (pT), nódulo (pN), estágio geral e histologia, a partir de mais de 900 relatórios de patologia, superando assim métodos tradicionais com elevada robustez na reprodutibilidade dos resultados. A par da sua precisão, deve-se ainda fazer nota que o custo deste estudo foi inferior a 10 dólares, o que demonstra um elevado rácio qualidade-valor em contraste com a anotação humana.

No entanto, o uso de LLMs em investigação clínica não está isento de riscos. As alucinações, caracterizadas por respostas fabricadas que contradizem as evidências disponíveis, podem representar preocupações significativas de segurança e fiabilidade. Por exemplo, o ChatGPT falhou ao ligar corretamente as dimensões do tumor à classificação pT da AJCC (American Joint Committee on Cancer) em 12,6% dos casos e gerou respostas alucinadas em 67% dos casos quando os relatórios de patologia estavam ausentes.

Além das alucinações, as respostas geradas pelos LLMs podem ser influenciadas por vieses inerentes aos dados de treino ou decisões algorítmicas, afetando a extração de dados clínicos. Resumidamente, o que importa ser do conhecimento da prática clínica é o seguinte: (i) a etiologia, dimensão e representatividade real dos dados é importante para a construção da base de dados (maus dados, mau treino), e (ii) a construção algoritmétrica é um processo centrado no programador-humano, sendo este passível de preferências, conscientes ou inconscientes, afetando os resultados (variabilidade interoperador). Por exemplo, a literatura recente revela que estes modelos podem exibir vieses de género e religiosos, levantando preocupações adicionais. Além disto, a proteção da privacidade dos pacientes é crucial, exigindo regulamentações apropriadas para garantir que os LLMs cumpram com as normas de confidencialidade.

Devemos assim exigir à investigação (e em acréscimo à formação) médica critérios rigorosos na utilização das novas tecnologias, especialmente no desenvolvimento de soluções que comprometem as decisões ou intervenções de alto risco clínico. Os outputs dos LLMs devem ser precisos, confiáveis e reprodutíveis, sublinhando a necessidade de diretrizes estritas para garantir a aplicação destas tecnologias. Em Portugal, a implementação destas tecnologias deve ser feita com cuidado. A adoção de diretrizes como a CANGARU (ChatGPT, Generative Artificial Intelligence, and Natural Large Language Models for Accountable Reporting and Use) pode ajudar a garantir a utilização apropriada dos LLMs por parte das instituições, com rápidos e simultâneos ganhos para a investigação e formação clínica.

Na nova era da Medicina, e esta no âmbito da revolução digital generalizada, devemos ter presente que o médico vive da sua compaixão, pensamento crítico e conhecimento científico, valências que não podem ser descuradas ou influenciadas com (ou sem) recurso à promessa tecnológica.

ler mais