Inteligência Artificial Multimodal na Oftalmologia Computacional: O Papel Emergente dos Modelos Fundacionais Visuais e Linguísticos
Docente Universitário, Doutorado em Bioengenharia e Aluno de Medicina

Inteligência Artificial Multimodal na Oftalmologia Computacional: O Papel Emergente dos Modelos Fundacionais Visuais e Linguísticos

A integração de modelos fundacionais multimodais em medicina está a reconfigurar o modo como a inteligência artificial (IA) é aplicada em contextos clínicos complexos. Recentemente, um modelo denominado EyeCLIP demonstrou um avanço significativo na oftalmologia computacional ao combinar imagens oftálmicas com linguagem clínica, abrindo caminho para uma nova geração de ferramentas diagnósticas baseadas em IA. Este artigo discute os principais resultados e implicações clínicas desse modelo, bem como a relevância da sua arquitectura para o futuro da medicina assistida por IA.

A oftalmologia é um campo particularmente propício à inovação computacional, dada a riqueza de informação visual dos exames e a disponibilidade de relatórios clínicos detalhados. No entanto, os modelos de deep learning desenvolvidos até à data tendem a ser unimodais, limitando-se à interpretação isolada de imagens, sem integração semântica dos dados clínicos. Shi et al.1 desenvolveram o modelo EyeCLIP, superando esta limitação ao conjugar 2.8 milhões de imagens oftálmicas com 11180 relatórios clínicos, permitindo uma representação semântica rica e contextualizada.

Utilizando uma arquitectura híbrida, baseada em encoder de patches visuais e embeddings linguísticos provenientes de relatórios reais, o modelo foi treinado com múltiplas perdas contrastivas (imagem-imagem, imagem-texto) e com técnicas auto-supervisionadas de reconstrução (Masked Autoencoding). Os resultados são clinicamente relevantes: AUCs superiores a 0.90 em diversas tarefas diagnósticas zero-shot, capacidade de generalização em 11 modalidades imagiológicas distintas e compatibilidade com múltiplos idiomas, graças à integração com o LLaMA2-7B para raciocínio clínico linguístico.

Importa destacar que este modelo não se limita à classificação diagnóstica. Inclui funcionalidades de deteção de doenças sistémicas com base em imagens oculares (por exemplo, anemia, síndromes genéticas), recuperação cross-modal de informação (consulta textual baseada em imagem e vice-versa), bem como visualizações semânticas da distribuição de patologias via embeddings. Estas capacidades estendem o impacto da IA para além do diagnóstico tradicional, entrando no domínio da exploração biomarcadora, triagem preventiva e apoio à investigação clínica.

No entanto, subsistem desafios. A ausência de imagens 3D (ex: OCT volumétrico), a necessidade de curadoria semântica apurada para prompts clínicos, e as exigências computacionais para treinar modelos com centenas de milhões de parâmetros limitam a sua implementação generalizada. Também a resistência dos profissionais de saúde à interpretação automatizada é um entrave, sendo essencial a inclusão de ferramentas de explicabilidade como saliency maps ou geração textual interpretativa para aumentar a confiança dos utilizadores. O EyeCLIP representa um protótipo de como os modelos fundacionais, com capacidades multimodais e transferência zero-shot, podem ser aplicados de forma transversal na medicina. Não se trata apenas de resolver tarefas específicas, mas de criar plataformas adaptáveis que interajam com diferentes fluxos de trabalho clínicos, linguagens e modalidades. Esta abordagem potencia uma nova era de sistemas médico-computacionais capazes de raciocínio clínico contextualizado, baseados em representações semânticas partilhadas entre visão computacional e linguagem médica.

 

1 Shi, D., Zhang, W., Yang, J. et al. A multimodal visual–language foundation model for computational ophthalmology. npj Digit. Med. 8, 381 (2025).

Artigo relacionado

Inteligência Artificial na Cardiologia Obstétrica: Um Novo Paradigma para a Deteção Precoce de Cardiomiopatias em Ambientes de Baixos Recursos

ler mais

Partilhe nas redes sociais:

ler mais