Radiologista comparando modelos abertos e fechados para extração de achados em radiografia torácica, com telas exibindo imagens anotadas por IA.

Modelos de Linguagem Abertos com Garantia de Privacidade São Competitivos com Modelos Fechados na Extração de Achados de Radiografia Torácica

Nowak, S., Wulff, B., Layer, Y. C., Theis, M., Isaak, A., Salam, B., Block, W., Kuetting, D., Pieper, C. C., Luetkens, J. A., Attenberger, U., & Sprinkart, A. M. (2025). Privacy-ensuring Open-weights Large Language Models Are Competitive with Closed-weights GPT-4 in Extracting Chest Radiography Findings from Free-Text Reports. Radiology. https://doi.org/10.1148/radiol.240895


📜 Resumo e Questões Estimulantes

Resumo

Este estudo comparou modelos de linguagem abertos (LLMs) open-weights (pesos abertos) com modelos fechados (GPT-4o) e sistemas baseados em regras na extração estruturada de achados de relatórios radiológicos em inglês e alemão. Os LLMs open-weights, como Mistral-Large (F1: 92,6%) e Llama-3.1–70b (F1: 92,2%), demonstraram desempenho competitivo com o GPT-4o (F1: 92,4%) em relatórios públicos em inglês. Para dados não públicos em alemão, o Mistral-Large alcançou F1 de 91,6%, superando sistemas baseados em regras (74,8%). O fine-tuning local com adaptação de baixo rank (LoRA) melhorou significativamente a precisão dos LLMs open-weights, especialmente com conjuntos pequenos de dados (F1: 94,3% vs. 86,7% do BERT com 1.000 relatórios).

Questões Estimulantes

  1. Como os LLMs open-weights se comparam aos modelos fechados em tarefas de extração de informações médicas?
  2. Qual é o impacto do fine-tuning local na performance de LLMs open-weights para dados clínicos sensíveis?
  3. Quais são as vantagens de modelos open-weights em ambientes regulados pela proteção de dados (ex: União Europeia)?

🗝️ Descomplicando os Conceitos Principais

Introdução

A extração automatizada de dados estruturados de relatórios radiológicos em texto livre é essencial para pesquisa e saúde integrada. Modelos fechados como GPT-4o enfrentam restrições legais em ambientes clínicos devido ao processamento externo de dados sensíveis. Este estudo avaliou LLMs open-weights como alternativas privacidade-preservadoras, capazes de operar localmente em redes hospitalares seguras.

Dimensões do Tema

  • Open-Weights vs. Closed-Weights: Modelos open-weights têm pesos publicamente disponíveis, permitindo implementação local sem dependência de servidores externos.
  • Fine-tuning com LoRA: Técnica que ajusta apenas subconjuntos de parâmetros do modelo, reduzindo custos computacionais.
  • Desempenho Multilíngue: LLMs open-weights mostraram alta eficácia em inglês e alemão, mesmo com variações linguísticas complexas (ex: posicionamento de cateter venoso central).

Considerações Práticas

Tabela Comparativa de Desempenho (Macro F1)

ModeloInglês (Zero-Shot)Alemão (Zero-Shot)Alemão (Fine-tuning com 1.000 dados)
GPT-4o92,4%Não aplicávelNão aplicável
Mistral-Large92,6%91,6%94,3%
Llama-3.1–70b92,2%87,5%93,6%
BERT (baseline)Não aplicável74,8%86,7%

Imagens do artigo:

FIGURA 1: Visão geral do estudo atual, que incluiu relatórios de radiografia de tórax públicos em inglês (Open-i; https://openi.nlm.nih.gov ) e não públicos em alemão. O desempenho após solicitação zero e one-shot de 17 modelos de linguagem grande (LLMs) de peso aberto foi comparado com o dos LLMs de peso fechado do OpenAI e regras codificadas para análise de conteúdo de relatório. Além disso, a eficácia do ajuste fino dos LLMs de peso aberto usando relatórios não públicos em alemão foi comparada com a das representações de codificador bidirecional de transformadores (BERT). b = bilhão, CLS = token de classificação, EOS = token de fim de sequência, MLM = modelagem de linguagem mascarada.

FIGURA 2: Exemplo de um prompt fornecido aos grandes modelos de linguagem para classificação de conteúdo de relatórios públicos em inglês e relatórios não públicos em alemão. AI = inteligência artificial, DD = diagnóstico diferencial, ETT = tubo endotraqueal, JSON = JavaScript Object Notation, PV = venoso pulmonar.

FIGURA 3: Gráficos de barras dos resultados do prompt zero-shot de modelos de linguagem grandes de pesos abertos e fechados sem ajuste fino em relatórios públicos em inglês. ° Indica pontuações F1 com ICs de 95% não sobrepostos excedendo o sistema CheXpert baseado em regras. Os modelos do OpenAI não puderam ser aplicados com inferência em lote, pois o único acesso era a uma conta de nível 1 com limites de taxa. Para todos os outros modelos de pesos abertos, um único nó com oito GPUs Nvidia A100 foi usado para inferência. A adesão ao formato JavaScript Object Notation (JSON) e às classes solicitadas é fornecida para modelos com falhas na sequência de saída.

FIGURA 4: Gráficos de barras dos resultados de prompting zero e one-shot de modelos de linguagem grandes de pesos abertos sem ajuste fino em relatórios alemães não públicos. ° Indica pontuações F1 com ICs de 95% não sobrepostos excedendo o sistema baseado em regras. † Pontuações F1 com ICs de 95% não sobrepostos excedendo todos os outros modelos. O prompting zero ou one-shot de BERT não foi viável; apenas modelos de pesos abertos foram aplicados, pois o compartilhamento de relatórios com terceiros usando modelos OpenAI de pesos fechados não foi possível devido à proteção de dados. A adesão ao formato JavaScript Object Notation (JSON) e às classes solicitadas é fornecida para modelos com falhas na sequência de saída.

FIGURA 5: Gráficos de barras dos resultados do ajuste fino de modelos de linguagem de pesos abertos grandes em relatórios alemães não públicos. ° Pontuações F1 com ICs de 95% não sobrepostos excedendo aqueles do sistema baseado em regras. * Pontuações F1 com ICs de 95% não sobrepostos excedendo BERT. Apenas modelos de pesos abertos foram aplicados, pois compartilhar relatórios com terceiros usando modelos OpenAI de pesos fechados não foi possível devido à proteção de dados.

FIGURA 6: Gráficos de linha para os resultados do prompting zero e one-shot e dos modelos de linguagem grande de pesos abertos de ajuste fino nos relatórios alemães não públicos. As pontuações F1 são apresentadas como porcentagens (eixo y) para prompting zero e one-shot e para diferentes números de relatórios anotados manualmente usados ​​(eixo x) para desenvolvimento do modelo.


🆚 Análise Comparativa com Fontes Externas

AspectoArtigo AtualFontes Externas
Desempenho MultilíngueMistral-Large alcançou F1 de 91,6% em relatórios em alemão, superando sistemas baseados em regras.Menezes et al. (2025) demonstram que o GPT-4 tem alta precisão em análise de notas médicas em três idiomas, mas dependem de infraestrutura externa (DOI). Meddeb et al. (2024) destacam a eficácia de LLMs em traduzir relatórios radiológicos para múltiplos idiomas, porém sem foco em privacidade (DOI).
Aplicações ClínicasLLMs open-weights permitem fine-tuning local para extração de dados sensíveis sem violar regulamentos (ex: GDPR).Gupta et al. (2024) usaram LLMs fechados para converter relatórios de TC em texto livre para estruturados, mas sem abordar questões de privacidade (DOI). Lee et al. (2024) mostram que modelos como ChatGPT têm alta precisão na estadiagem de câncer de pulmão, comparável a radiologistas (DOI).
Privacidade e InfraestruturaImplantação local de LLMs open-weights evita transferência de dados para servidores externos.Busch et al. (2025) testaram o GPT-4o em transcrição de relatórios multimodais, dependendo de APIs externas (DOI). Wollek et al. (2025) desenvolveram modelos para rotular relatórios em alemão, mas não exploraram fine-tuning eficiente (DOI).
Eficiência de Fine-tuningLoRA + 4-bit permitiram F1 de 94,3% com apenas 1.000 relatórios, superando BERT.Roos et al. (2024) compararam GPT-4 Vision em tarefas visuais, mas não abordaram adaptação a dados limitados (DOI). Goto et al. (2024) avaliaram o GPT-4o em exames de radiografia japonesa, porém sem foco em otimização computacional (DOI).

❌ Fact Check

  1. Alegação: LLMs open-weights são menos precisos que modelos fechados como GPT-4o.
  • Fato: Mistral-Large teve F1 de 92,6% vs. 92,4% do GPT-4o em relatórios em inglês.
  • Fonte: Tabela 1 do artigo.
  1. Alegação: Fine-tuning de LLMs requer grandes conjuntos de dados.
  • Fato: Com 1.000 relatórios, LLMs open-weights superaram BERT (94,3% vs. 86,7%).
  • Fonte: Resultados da seção Fine-tuning.
  1. Alegação: Imagens sem anotações são suficientes para LLMs.
  • Fato: Imagens sem anotações tiveram precisão de apenas 2,2% (Grupo 1).
  • Fonte: Goto et al. (2024) corroboram que modelos sem contexto textual têm desempenho limitado (DOI).

🔍 Perspective Research (Visões Diversificadas)

  1. 2025 – “The Potential of GPT-4 in Multilingual Medical Note Analysis”
  • Descrição: Menezes et al. demonstram que o GPT-4 mantém alta precisão em três idiomas, porém dependem de APIs externas, limitando uso em ambientes sensíveis.
  • Relevância: Destaca a necessidade de modelos open-weights para conformidade com regulamentos locais.
  • Leia mais.
  1. 2024 – “Bard Gemini Pro vs. GPT-4 in Medical Visual QA”
  • Descrição: Roos et al. mostram que modelos multimodais têm desempenho variável em tarefas clínicas complexas, sugerindo que LLMs textuais ainda são essenciais para dados estruturados.
  • Relevância: Corrobora a escolha de LLMs open-weights para extração textual em vez de modelos visuais.
  • Leia mais.
  1. 2024 – “GPT-4o in Japanese Radiography Certification”
  • Descrição: Goto et al. validam o GPT-4o em exames clínicos, mas destacam custos elevados de implementação.
  • Relevância: LLMs open-weights oferecem alternativa econômica para hospitais com recursos limitados.
  • Leia mais.
  1. 2024 – “Structured Reporting via LLMs in Head & Neck Cancer”
  • Descrição: Gupta et al. convertem relatórios de TC em texto livre para estruturados usando LLMs, mas sem abordar segurança de dados.
  • Relevância: Modelos open-weights preenchem essa lacuna ao permitir processamento local.
  • Leia mais.
  1. 2024 – “Multilingual Radiology Report Translation”
  • Descrição: Meddeb et al. mostram que LLMs podem traduzir relatórios com precisão, mas dependem de infraestrutura de nuvem.
  • Relevância: LLMs open-weights permitem tradução e análise dentro de redes hospitalares seguras.
  • Leia mais.

Conclusão e Recomendações

Conclusão Geral

LLMs open-weights combinam alta precisão, conformidade com privacidade e adaptabilidade, superando modelos fechados em ambientes clínicos restritos. Estudos como Wollek et al. (2025) e Lee et al. (2024) reforçam a viabilidade de LLMs em radiologia, enquanto Menezes et al. (2025) e Busch et al. (2025) destacam desafios em escalabilidade e multimodalidade.

Recomendações Práticas

  • Para Clínicas: Adotar Mistral-Large ou Llama-3.1 para processamento local de relatórios sensíveis.
  • Para Desenvolvedores: Otimizar técnicas como LoRA para reduzir requisitos de hardware.
  • Para Reguladores: Criar diretrizes para uso ético de LLMs em saúde, inspiradas em Gupta et al. (2024) e Meddeb et al. (2024).

📋 FAQ: Perguntas Frequentes

1. LLMs open-weights são adequados para hospitais sem infraestrutura de GPU?
Modelos menores como Gemma-2–9b podem ser usados, mas com trade-off em precisão.

2. Como garantir a atualização de modelos open-weights?
Colaborações acadêmicas e acesso a repositórios públicos (ex: Hugging Face) permitem atualizações contínuas.

3. Qual é o custo de implantação de LLMs open-weights vs. GPT-4o?
Custos iniciais de hardware são altos, mas eliminam taxas recorrentes de APIs (ex: US$ 0,06 por 1k tokens do GPT-4o).


📄 Acesse o Artigo Completo Aqui

Leia mais.

Mais do autor

Radiologista analisando imagens de ressonância magnética cerebral com GPT-4V, exibindo anotações de IA destacando anormalidades.

GPT-4V e o Diagnóstico de Imagens de Ressonância Magnética Cerebral: Impacto dos Elementos de Prompt Multimodal

Médico consultando paciente em clínica moderna de nefrologia, com tela digital exibindo os quatro pilares do tratamento da doença renal diabética.

Uma Nova Era no Tratamento da Doença Renal Diabética: Os Quatro Pilares e Estratégias Futuras

Leave a Reply

Your email address will not be published. Required fields are marked *