Radiologista analisando imagens de ressonância magnética cerebral com GPT-4V, exibindo anotações de IA destacando anormalidades.

GPT-4V e o Diagnóstico de Imagens de Ressonância Magnética Cerebral: Impacto dos Elementos de Prompt Multimodal

Schramm, S., Preis, S., Metz, M.-C., Jung, K., Schmitz-Koep, B., Zimmer, C., Wiestler, B., Hedderich, D. M., & Kim, S. H. (2025). Impact of multimodal prompt elements on diagnostic performance of GPT-4V in challenging brain MRI cases. Radiology. https://doi.org/10.1148/radiol.240689


📌 Resumo e Questões Estimulantes

O avanço da inteligência artificial multimodal, especialmente o GPT-4V, tem permitido integrar análises de imagens e descrições textuais para aprimorar diagnósticos médicos. Esse estudo avalia o impacto da estruturação de prompts na precisão diagnóstica do GPT-4V em exames de Ressonância Magnética (RM) cerebral.

Questões Chave

  • Como a estruturação dos prompts afeta o desempenho diagnóstico do GPT-4V?
  • Em que medida modelos de IA podem ser incorporados na prática radiológica?
  • A adição de descrições textuais e histórico clínico melhora significativamente a precisão diagnóstica?

🧩 Descomplicando os Conceitos Principais

Introdução

Com a crescente implementação de Modelos de Linguagem de Grande Escala (LLMs) na radiologia, a avaliação de estratégias para maximizar a sua eficiência se tornou essencial. Este estudo examina como diferentes combinações de elementos multimodais impactam a performance do GPT-4V na interpretação de exames de RM.

Dimensões do Tema

  • IA na Radiologia: O uso de modelos de aprendizado profundo para apoiar diagnósticos médicos.
  • Precisão Diagnóstica: Comparação da acurácia do GPT-4V em diferentes abordagens de entrada.
  • Interação Multimodal: Integração de imagens, descrições textuais e histórico clínico para otimização do diagnóstico.

Considerações Práticas

A utilização de Modelos Multimodais de IA pode contribuir para diagnósticos mais precisos na radiologia. Algumas considerações incluem:

  • Uso de prompts estruturados para otimizar os resultados da IA.
  • Necessidade de validação clínica antes da adoção desses modelos na rotina hospitalar.
  • Capacitação de profissionais de saúde para interpretar corretamente os resultados gerados pela IA.

📊 Tabela de Precisão Diagnóstica por Elemento de Entrada

GrupoDescrição do PromptPrecisão Diagnóstica (%)
IApenas imagem2.2%
I + AImagem com anotação1.1%
I + HImagem e histórico clínico28%
I + DImagem e descrição textual59%
I + A + H + DImagem, anotação, histórico e descrição69%
H + DHistórico e descrição textual65%
DApenas descrição textual66%

Conclusão prática: A adição de descrições textuais melhora significativamente a precisão do GPT-4V, enquanto imagens sem contexto (mesmo com anotações) apresentam baixa efetividade.


Direções Futuras

  • Aprimoramento da Interpretação Multimodal: Desenvolvimento de modelos especializados em análise de imagens médicas.
  • Testes Clínicos Extensos: Avaliação do uso de LLMs em ambientes clínicos reais.
  • Integração com Fluxos Hospitalares: Uso de IA para gerar laudos automatizados e suporte à decisão médica.

Figuras do Artigo:

FIGURA 1: O fluxograma mostra a seleção de casos. Um total de 60 exames de ressonância magnética cerebral com diagnóstico confirmado (histopatologicamente ou por meio de acompanhamento e concordância independente de dois neurorradiologistas certificados) foram obtidos da coleção de casos de neurorradiologia local.

FIGURA 2: Captura de tela do GPT-4 com visão (OpenAI) (22) mostra uma consulta de amostra com um prompt que inclui as varreduras de ressonância magnética anotadas, o histórico médico e uma descrição da imagem (grupo de prompts 5). O diagnóstico correto neste caso foi subependimoma. Consulte as Figuras S1 e S2 para versões completas das varreduras de ressonância magnética de origem. DWI = imagem ponderada por difusão.

FIGURA 3: Captura de tela do GPT-4 com visão (OpenAI) (22) mostra outra consulta de amostra com um prompt que inclui as varreduras de ressonância magnética anotadas, o histórico médico e uma descrição da imagem (grupo de prompts 5). O diagnóstico correto neste caso foi sarcoma. O diagnóstico sugerido de “osteossarcoma” foi classificado como correto. Consulte as Figuras S3 e S4 para versões completas das varreduras de ressonância magnética de origem. DDx = diagnóstico diferencial, DWI = imagem ponderada por difusão.

FIGURA 4: Os gráficos de barras mostram a precisão do diagnóstico. (A) Pontuações binárias. Barras azuis escuras representam a proporção de respostas do modelo de linguagem grande (LLM) que incluíram o diagnóstico correto entre as três principais sugestões em um determinado grupo de prompts. (B) Pontuações numéricas (0–3). Cada segmento das barras empilhadas representa a proporção de respostas do LLM que incluíram o diagnóstico correto como a primeira, segunda ou terceira sugestão, ou nenhuma, em um determinado grupo de prompts. O grupo 1 era de imagens sem modificadores (I); grupo 2, imagem e anotação (I + A); grupo 3, imagem e histórico médico (I + H); grupo 4, imagem e descrição da imagem (I + D); grupo 5, imagem, anotação, histórico médico e descrição da imagem (I + A + H + D); grupo 6, histórico médico e descrição da imagem (H + D); e grupo 7, descrição da imagem (D).

📌 Conclusão: O estudo atual expande os achados prévios ao demonstrar que a estruturação textual melhora significativamente a precisão diagnóstica da IA.


🆚 Análise Comparativa com Fontes Externas

AspectoArtigo AtualFontes Externas
Desempenho com Descrição de ImagemGPT-4V: 69% de precisão com descrição de imagem.Brin et al. (2024): Avaliação do desempenho multimodal do GPT-4 em análise de imagens radiológicas. Leia mais.
Desempenho com Apenas ImagensGPT-4V: 2,2% de precisão com imagens sem anotações.Mitsuyama et al. (2024): Comparação do desempenho diagnóstico do GPT-4 com radiologistas em casos reais de tumores cerebrais. Leia mais.
Impacto do Histórico MédicoGPT-4V: OR de 4,18 para histórico médico.Horiuchi et al. (2024): Estudo sobre a precisão do GPT-4 em diagnósticos de neurorradiologia com base em histórico médico e achados de imagem. Leia mais.


❌ Fact Check

  1. Alegação: A descrição textual dos achados de imagem é o fator mais importante para o desempenho do GPT-4V.
    • ✅ Fato: A descrição de imagem teve o maior impacto, com OR de 68,03.
    • FonteLeia mais.
  2. Alegação: Imagens sem anotações ou descrições têm baixa precisão diagnóstica.
    • ✅ Fato: A precisão foi de apenas 2,2% com imagens sem anotações e 1,1% com imagens e anotações.
    • FonteLeia mais.

🔍 Perspective Research (Visões Diversificadas)

  1. 2023 – “Evaluating GPT-4 on Impressions Generation in Radiology Reports”
    • Descrição: Estudo que avalia a capacidade do GPT-4 em gerar impressões clínicas a partir de relatórios radiológicos.
    • Leia mais.
  2. 2023 – “Potential of ChatGPT and GPT-4 for Data Mining of Free-Text CT Reports on Lung Cancer”
    • Descrição: Explora o uso do GPT-4 para mineração de dados em relatórios de TC de pulmão.
    • Leia mais.
  3. 2023 – “Leveraging GPT-4 for Post Hoc Transformation of Free-Text Radiology Reports into Structured Reporting”
    • Descrição: Estudo sobre a transformação de relatórios radiológicos em texto livre para relatórios estruturados usando GPT-4.
    • Leia mais.
  4. 2024 – “Assessing GPT-4 Multimodal Performance in Radiological Image Analysis”
    • Descrição: Estudo que avalia o desempenho do GPT-4 na análise de imagens radiológicas, comparando diferentes modalidades de entrada.
    • Leia mais.
  5. 2024 – “Comparative Analysis of GPT-4-based ChatGPT’s Diagnostic Performance with Radiologists Using Real-World Radiology Reports of Brain Tumors”
    • Descrição: Comparação do desempenho diagnóstico do GPT-4 com radiologistas em relatórios reais de tumores cerebrais.
    • Leia mais.
  6. 2024 – “GPT-4o’s Competency in Answering the Simulated Written European Board of Interventional Radiology Exam”
    • Descrição: Avaliação da competência do GPT-4 em responder a um exame simulado do Conselho Europeu de Radiologia Intervencionista.
    • Leia mais.

📋 Conclusão e Recomendações

Conclusão Geral

Os resultados indicam que o uso de descrições textuais melhora significativamente a precisão diagnóstica da IA. A integração da IA na radiologia é uma tendência promissora, mas requer validação clínica e regulamentação adequada.

Recomendações Práticas

Utilizar descrições detalhadas ao empregar IA em diagnósticos.
Promover treinamentos médicos para interpretação correta dos resultados da IA.
Realizar mais estudos clínicos para validar a segurança e eficácia desses modelos.


📋 FAQ: Perguntas Frequentes

🔹 A IA pode substituir radiologistas?
Não. A IA deve ser usada como ferramenta auxiliar, e não como substituição.

🔹 Como os prompts afetam a performance do GPT-4V?
Quanto mais estruturada a entrada textual, maior a precisão da IA no diagnóstico.


📎 Acesse o Artigo Completo Aqui

🔗 Link para o PDF

Mais do autor

Radiologista revisando relatórios de tomografia de crânio gerados por GPT-4, com anotações de IA destacando anormalidades

Avaliação em Larga Escala da Viabilidade do GPT-4 na Revisão de Relatórios de TC de Crânio

Radiologista comparando modelos abertos e fechados para extração de achados em radiografia torácica, com telas exibindo imagens anotadas por IA.

Modelos de Linguagem Abertos com Garantia de Privacidade São Competitivos com Modelos Fechados na Extração de Achados de Radiografia Torácica

Leave a Reply

Your email address will not be published. Required fields are marked *