Desempenho do ChatGPT nas questões da avaliação anual de residentes do Colégio Brasileiro de Radiologia

Leitão, Cleverson Alex; Salvador, Gabriel Lucca de Oliveira; Rabelo, Leda Maria; Escuissato, Dante Luiz

doi:10.1590/0100-3984.2023.0083

Resumo

Objetivo:

Testar o desempenho do ChatGPT em questões de radiologia formuladas pelo Colégio Brasileiro de Radiologia (CBR), avaliando seus erros e acertos.

Materiais e Métodos:

165 questões da avaliação anual dos residentes do CBR (2018, 2019 e 2022) foram apresentadas ao ChatGPT. Elas foram divididas, para análise estatística, em questões que avaliavam habilidades cognitivas de ordem superior ou inferior e de acordo com a subespecialidade, o tipo da questão (descrição de um achado clínico ou sinal, manejo clínico de um doente, aplicação de um conceito, cálculo ou classificação dos achados descritos, associação entre doenças ou anatomia) e o ano da residência (R1, R2 ou R3).

Resultados:

O ChatGPT acertou 53,3% das questões (88/165). Houve diferença estatística entre o desempenho em questões de ordem cognitiva inferior (64,4%; 38/59) e superior (47,2%; 50/106) (p = 0,01). Houve maior índice de acertos em física (90,0%; 18/20) do que em questões clínicas (48,3%; 70/145) (p = 0,02). Não houve diferença significativa de desempenho entre subespecialidades ou ano de residência (p > 0,05).

Conclusão:

Mesmo sem treinamento dedicado a essa área, o ChatGPT apresenta desempenho razoável, mas ainda insuficiente para aprovação, em questões de radiologia formuladas pelo CBR.

Unitermos:
Inteligência artificial; Radiologia; Questões de prova; Diagnóstico por imagem

Abstract

Objective:

To test the performance of ChatGPT on radiology questions formulated by the Colégio Brasileiro de Radiologia (CBR, Brazilian College of Radiology), evaluating its failures and successes.

Materials and Methods:

165 questions from the CBR annual resident assessment (2018, 2019, and 2022) were presented to ChatGPT. For statistical analysis, the questions were divided by the type of cognitive skills assessed (lower or higher order), by topic (physics or clinical), by subspecialty, by style (description of a clinical finding or sign, clinical management of a case, application of a concept, calculation/classification of findings, correlations between diseases, or anatomy), and by target academic year (all, second/third year, or third year only).

Results:

ChatGPT answered 88 (53.3%) of the questions correctly. It performed significantly better on the questions assessing lower-order cognitive skills than on those assessing higher-order cognitive skills, providing the correct answer on 38 (64.4%) of 59 questions and on only 50 (47.2%) of 106 questions, respectively (p = 0.01). The accuracy rate was significantly higher for physics questions than for clinical questions, correct answers being provided for 18 (90.0%) of 20 physics questions and for 70 (48.3%) of 145 clinical questions (p = 0.02). There was no significant difference in performance among the subspecialties or among the academic years (p > 0.05).

Conclusion:

Even without dedicated training in this field, ChatGPT demonstrates reasonable performance, albeit still insufficient for approval, on radiology questions formulated by the CBR.

Keywords:
Artificial intelligence; Radiology; Examination questions; Diagnostic imaging

INTRODUÇÃO

Inteligência artificial (IA) é o nome geral dado a métodos de computação que simulam o padrão de aprendizado do intelecto humano^{(¹1 Wang F, Preininger A. AI in health: state of the art, challenges, and future directions. Yearb Med Inform. 2019;28:16-26.)}. Os rápidos avanços obtidos recentemente nesse campo do conhecimento têm suscitado questionamentos acerca de como ela impactará as mais diversas profissões no futuro, inclusive a medicina. Dentre os modelos de IA já existentes, o Chat Generative Pre-trained Transformer (ChatGPT) tem ganhado destaque não apenas na literatura científica^{(²2 Morreel S, Mathysen D, Verhoeven V. Aye, AI! ChatGPT passes multiple-choice family medicine exam. Med Teach. 2023;45:665-6.

3 Huh S. Are ChatGPT’s knowledge and interpretation ability comparable to those of medical students in Korea for taking a parasitology examination?: a descriptive study. J Educ Eval Health Prof. 2023;20:1.-⁴4 Rao A, Kim J, Kamineni M, et al. Evaluating ChatGPT as an adjunct for radiologic decision-making. [Preprint]. medRxiv. 2023:2023.02. 02.23285399.)}, mas também na mídia comum^{(⁵5 G1 Globo.com. O que é ChatGPT e por que alguns o veem como ameaça? [cited 2023 June 10]. Available from: https://g1.globo.com/tecnologia/noticia/2023/01/19/o-que-e-chatgpt-e-por-que-alguns-oveem-como-ameaca.ghtml.
https://g1.globo.com/tecnologia/noticia/...
)}. Trata-se de uma ferramenta de IA baseada em relações entre algoritmos de IA com a linguagem humana denominada natural language processing disponível publicamente desde 30 de novembro de 2022^{(⁶6 OpenAI. Introducing ChatGPT. [cited 2023 June 2]. Available from: https://openai.com/blog/chatgpt/.
https://openai.com/blog/chatgpt/...
)}. Seu algoritmo atual é o GPT-3.5, um modelo de linguagem grande treinado com mais de 45 terabytes de dados textuais. Por meio de redes neurais, tais dados permitem que a ferramenta seja capaz de analisar e gerar textos similares aos escritos por humanos^{(⁷7 Bhayana R, Krishna S, Bleakney RR. Performance of ChatGPT on a radiology board-style examination: insights into current strengths and limitations. Radiology. 2023;307:e230582.)}. Embora não tenha sido treinado especificamente para uso médico, estudos já têm demonstrado seu promissor papel tanto na prática médica^{(⁸8 Dave T, Athaluri SA, Singh S. ChatGPT in medicine: an overview of its applications, advantages, limitations, future prospects, and ethical considerations. Front Artif Intell. 2023;6:1169595.)} quanto na escrita acadêmica em medicina^{(⁹9 Biswas S. ChatGPT and the future of medical writing. Radiology. 2023;307:e223312.)}.

Como forma de avaliar o conhecimento do ChatGPT acerca de temas médicos, a ferramenta já teve seu desempenho testado em exames acadêmicos que avaliam estudantes reais, como a prova dos Estados Unidos para obtenção da licença médica^{(¹⁰10 Gilson A, Safranek CW, Huang T, et al. How does ChatGPT perform on the United States Medical Licensing Examination (USMLE)? The implications of large language models for medical education and knowledge assessment. JMIR Med Educ. 2023;9:45312.)} e questões para a obtenção de títulos de especialista em radiologia no Canadá e nos Estados Unidos^{(⁷7 Bhayana R, Krishna S, Bleakney RR. Performance of ChatGPT on a radiology board-style examination: insights into current strengths and limitations. Radiology. 2023;307:e230582.)} e em medicina de família em Taiwan^{(¹¹11 Weng TL, Wang YM, Chang S, et al. ChatGPT failed Taiwan’s Family Medicine Board Exam. J Chin Med Assoc. 2023;86:762-6.)}, com resultados que mostram um desempenho, em geral, próximo ao necessário para aprovação.

No contexto específico da radiologia, a IA vem sendo usada sobretudo como auxiliar na interpretação de imagens, porém modelos de linguagem como o ChatGPT também têm mostrado potencial como auxiliar na redação dos relatórios radiológicos^{(¹²12 Jeblick K, Schachtner B, Dexl J, et al. ChatGPT makes medicine easy to swallow: an exploratory case study on simplified radiology reports. arXiv 2212.14882 [cs.CL]. [cited 2023 June 2]. Available from: https://arxiv.org/abs/2212.14882.
https://arxiv.org/abs/2212.14882...
)} e na tomada de decisões clínicas^{(⁴4 Rao A, Kim J, Kamineni M, et al. Evaluating ChatGPT as an adjunct for radiologic decision-making. [Preprint]. medRxiv. 2023:2023.02. 02.23285399.)}. Compreender melhor o desempenho da IA frente a problemas encontrados na prática diária do radiologista pode auxiliar a entender como ela influenciará o futuro da profissão. Com esse objetivo em vista, este trabalho busca avaliar o desempenho do ChatGPT em questões elaboradas pelo Colégio Brasileiro de Radiologia (CBR) para a avaliação anual dos residentes em radiologia e diagnóstico por imagem, analisando suas respostas, e quais os acertos e erros da plataforma até este momento.

MATERIAIS E MÉTODOS

Estudo analítico prospectivo realizado entre os dias 24 de maio e 3 de junho de 2023, que não envolveu seres humanos ou dados de pacientes, sendo dispensada a aprovação por comitê de ética institucional.

Questões da avaliação anual dos residentes em radiologia

Foram selecionadas 165 questões das provas anuais de avaliação de residentes em radiologia e diagnóstico por imagem aplicadas pelo CBR nos anos de 2018, 2019 e 2022, que se encontram disponíveis on-line para acesso público no site do CBR^{(¹³13 Colégio Brasileiro de Radiologia e Diagnóstico por Imagem. Avaliação anual de residentes - provas anteriores. [cited 2023 Jun 2]. Available from: https://cbr.org.br/avaliacao-anual-de-residentes-provas-anteriores/.
https://cbr.org.br/avaliacao-anual-de-re...
)} e cujo uso foi autorizado pela sua Comissão de Admissão e Titulação. Todas as questões eram do tipo “múltipla escolha”, com apenas uma alternativa correta e quatro alternativas falsas. Foram excluídas questões com imagens, pois o ChatGPT ainda não possui a capacidade de interpretá-las. Elas foram divididas de acordo com seu tema em questões de física (20 questões) e clínicas (145 questões), essas representando os principais campos de conhecimento e subespecialidades da radiologia: abdome (20 questões), tórax (15 questões), mama (15 questões), neurorradiologia (15 questões), pediatria (15 questões), musculoesquelético (15 questões), meios de contraste (15 questões), ultrassonografia (15 questões), ginecologia e obstetrícia (10 questões) e miscelânea (PET/CT, densitometria, Doppler e segurança do paciente - 10 questões).

Posteriormente, as questões foram subdivididas de acordo com os princípios da taxonomia de Bloom em questões que avaliam habilidades cognitivas de ordem inferior (relembrar uma ideia, memorizar um conceito) e questões que avaliam habilidades cognitivas de ordem superior (avaliar, analisar, sintetizar o conhecimento obtido)^{(¹⁴14 Qasrawi R, BeniAbdelrahman A. The higher and lower-order thinking skills (HOTS and LOTS) in unlock English textbooks (1st and 2nd editions) based on Bloom’s taxonomy: an analysis study. International Online Journal of Education and Teaching. 2020;7:744-58.)}. Estas foram novamente divididas de acordo com seu estilo em seis subcategorias: descrição de um achado clínico ou sinal; manejo clínico de um doente; aplicação de um conceito; cálculo ou classificação dos achados descritos; associação entre doenças; anatomia. Todas as questões foram classificadas independentemente pelos autores do estudo e, nos casos de desavença, uma classificação final foi obtida por consenso.

Por fim, as questões foram divididas entre questões que o CBR aplicou para os residentes dos três anos (n = 92), questões voltadas para residentes do segundo e terceiro anos (n = 34) e questões voltadas para os residentes do terceiro ano (n = 39).

ChatGPT

Foi utilizada a versão mais recente do ChatGPT disponível (24 de maio de 2023; OpenAI). Apesar de essa ferramenta ter sido treinada com mais de 45 terabytes de dados em formato de texto, advindos de páginas da internet, livros e artigos científicos, eles não foram fornecidos especificamente para atender às necessidades do médico radiologista. O ChatGPT não realiza buscas na internet, respondendo às perguntas utilizando apenas a sua base de dados.

Coleta e análise dos dados

As questões e suas alternativas foram apresentadas ao ChatGPT sequencialmente, uma a uma, tal como formuladas pelo CBR, sem o fornecimento de um pré-prompt específico, e suas respostas foram salvas em um arquivo de texto para a análise posterior dos pesquisadores. Para as questões respondidas incorretamente, foi imediatamente fornecida uma devolutiva, explicando o erro e qual a resposta correta, a fim de analisar o comportamento da plataforma frente a essa correção. Além da análise quantitativa do número de acertos e erros, os pesquisadores realizam uma análise qualitativa em grupo, obtendo um consenso para os comentários a respeito das respostas obtidas.

Análise estatística

Para análise do índice de acertos, foi calculada a razão do número de acertos sobre o número total de questões para todas as categorias (total de questões, questões de alta e baixa ordem e subtipos de questões conforme atrás descrito) e exibida a porcentagem final dessa razão.

A comparação entre o índice de acertos nos diferentes grupos (baixa ordem × alta ordem; física × clínica; tipo de questão) utilizou os testes exato de Fisher e qui-quadrado. A análise entre subgrupos de questões (por tema e ano da questão) utilizou o teste de análise de variância. O programa utilizado foi o Stata versão 16.0 (Stata Corp LP, College Station, TX, EUA) e o pós-processamento foi realizado no Microsoft Excel 365, com seu pacote de análise de dados. Consideraram-se como estatisticamente significantes valores de p < 0,05.

RESULTADOS

Resultado geral

O ChatGPT acertou 53% das questões que lhe foram apresentadas (88/165), abaixo da nota de aprovação do CBR (70%). A Tabela 1 mostra o desempenho de acordo com o tipo e o tema da questão.

Thumbnail

Tabela 1
Desempenho do ChatGPT de acordo com o tipo e o tema da questão.

Desempenho por tipo de questão

O desempenho em questões que avaliam habilidades cognitivas de ordem inferior (64,4%; 38/59) foi superior ao visto nas questões que avaliam habilidades cognitivas de ordem superior (47,2%; 50/106) (p = 0,01). A Figura 1 mostra um exemplo de acerto de uma questão que avalia habilidade de ordem inferior e a Figura 2 mostra um exemplo de acerto de ordem superior.

Figura 1
Exemplo de uma das respostas corretas do ChatGPT a uma pergunta que avalia habilidades cognitivas de ordem inferior (neste caso, uma definição).

Figura 2
Exemplo de uma das respostas corretas do ChatGPT a uma pergunta que avalia habilidades cognitivas de ordem superior (neste caso, a correlação entre doenças).

Entre as perguntas que avaliam habilidades cognitivas de ordem superior, o desempenho do ChatGPT foi pior em questões de anatomia, cálculo e classificação e associação entre doenças, porém sem diferença estatisticamente significante (p > 0,05) em comparação com as questões em que se saiu melhor (descrição de achados, manejo clínico e aplicação de conceitos). A Figura 3 mostra um exemplo de erro de uma questão a respeito de anatomia, a Figura 4 mostra um exemplo de acerto em questão que envolve descrição de achados e a Figura 5 mostra um exemplo de acerto em questão que envolve manejo clínico.

Figura 3
Exemplo de erro do ChatGPT em uma questão de anatomia em neurorradiologia. A resposta correta seria a alternativa C.

Figura 4
Exemplo de acerto do ChatGPT em uma questão em que há descrição dos achados de imagem e solicita-se o diagnóstico.

Figura 5
Exemplo de acerto do ChatGPT em uma questão em que há descrição de um caso clínico com exame de imagem e solicita-se a conduta mais adequada.

Desempenho por tema da questão

O melhor desempenho do ChatGPT foi obtido nas questões de física, sendo estatisticamente superior ao desempenho obtido nas questões clínicas (p = 0,02). Dentre as áreas clínicas, o maior índice de acertos foi observado nas questões de pediatria, abdome e tórax, porém sem diferença estatisticamente significante em comparação com as áreas de pior índice de acertos (ginecologia e obstetrícia e ultrassonografia) (p > 0.05).

Desempenho por ano da questão

O melhor desempenho do ChatGPT foi obtido nas questões respondidas por todos os residentes, desde o primeiro ano (61,9%; 57/92), seguido pelas questões respondidas pelos residentes de segundo e terceiro anos (50%; 17/34) e pelas questões respondidas apenas pelos residentes de terceiro ano (36,9%; 14/39), porém não houve diferença estatisticamente significante (p > 0.05).

Avaliação qualitativa das respostas

A avaliação unânime dos avaliadores foi que o desempenho do ChatGPT foi satisfatório, especialmente considerando-se que seu banco de dados não foi desenvolvido especificamente para uso em radiologia. O alto grau de assertividade da plataforma em fornecer suas respostas, nunca utilizando palavras que indicassem uma possível dúvida ou hesitação (Figuras 1 a 5) também chama a atenção, mesmo em questões em que sua resposta foi a incorreta (Figura 3). Outro fato interessante é que na maior parte das questões (65%; 107/165), não apenas o programa indicou a resposta correta, mas também analisou todas as assertivas, indicando porque as julgou incorretas (Figuras 1, 2 e 4).

DISCUSSÃO

Neste estudo, o primeiro realizado com dados exclusivamente brasileiros, evidencia-se que o ChatGPT ainda não apresenta índice de acertos elevado o suficiente em questões de radiologia para obter a nota exigida para a aprovação na avaliação anual dos residentes em radiologia e diagnóstico por imagem do CBR. O desempenho nas questões nacionais foi pior do que o observado em questões norte-americanas da mesma especialidade (53,3% naquelas e 69% nestas)^{(⁷7 Bhayana R, Krishna S, Bleakney RR. Performance of ChatGPT on a radiology board-style examination: insights into current strengths and limitations. Radiology. 2023;307:e230582.)}, o que pode estar relacionado a diferenças entre as provas de acordo com o conhecimento específico que cada país exige dos futuros radiologistas. Novos estudos similares realizados em outros países poderão ajudar a compreender tais diferenças.

A análise das 77 questões que o ChatGPT não acertou mostra que seus erros podem ser atribuídos basicamente ao desconhecimento do assunto que está sendo tratado, como visto na Figura 3. Não foram identificados erros de interpretação do enunciado, associações ilógicas ou ocorrência de alucinações. Esse resultado está de acordo com o que é descrito na literatura, uma vez que alucinações não são tão frequentes em chatbots porque estes são elaborados para responder a perguntas com base em regras estabelecidas durante a fase de programação e nas informações contidas em sua base de dados, e não para gerar novas informações^{(¹⁵15 Alkaissi H, McFarlane SI. Artificial hallucinations in ChatGPT: implications in scientific writing. Cureus. 2023;15:e35179.)}, o que costuma ser a fonte de alucinações. Estudo semelhante recente também confirmou essa tendência^{(¹⁶16 Patil NS, Huang RS, van der Pol CB, et al. Comparative performance of ChatGPT and Bard in a text-based radiology knowledge assessment. Can Assoc Radiol J. 2023:8465371231193716.)}, o que sugere que é a falta de familiaridade do chatbot com as especificidades e nuances da radiologia o principal entrave para um maior índice de acertos.

O melhor desempenho obtido entre as questões que avaliam habilidades cognitivas de ordem inferior sobre as que avaliam habilidades de ordem superior já foi demonstrado na literatura^{(⁷7 Bhayana R, Krishna S, Bleakney RR. Performance of ChatGPT on a radiology board-style examination: insights into current strengths and limitations. Radiology. 2023;307:e230582.)}, tendo sido reforçado neste estudo. Este achado mostra a capacidade de a IA em reconhecer e expressar conceitos e definições, mas indica que ainda há avanços a serem obtidos em termos de resolução de desafios mais complexos. É importante que esta característica dos atuais modelos de IA seja conhecida, a fim de que futuros esforços sejam direcionados para elevar seu desempenho em ambos os tipos de ordem cognitiva.

Modelos de linguagem grande como ChatGPT são treinados, a partir de uma ampla base de dados, para reconhecer padrões e relações entre palavras. Dessa forma, a superioridade do índice de acertos em questões de física sobre as questões clínicas observada no presente estudo é compreensível. Uma vez que a base de dados não foi formada para atender especificamente as necessidades do médico radiologista, outras áreas do conhecimento que transcendem essa especialidade, como é o caso da física, tem o potencial de gerar maior número de associações, aumentando seu índice de acertos frente aos desafios propostos. Tais modelos, e o próprio ChatGPT, poderão se beneficiar de maior treinamento nessa especialidade médica, porém, até lá, é importante que o radiologista esteja ciente dessa limitação.

Da mesma forma, a ausência de diferença estatisticamente significante entre as subespecialidades da radiologia pode ser compreendida pela baixa familiaridade do ChatGPT com os termos e jargões que compõem cada subespecialidade. A radiologia e cada uma das suas subáreas têm vernáculo próprio que é utilizado para elaborar relatórios, classificações e diagnósticos. Enquanto a base de dados dos modelos de linguagem larga não estiver treinada especificamente para lidar com esses termos, a IA pode ser induzida a fazer associações incorretas, o que limita o seu índice de acertos. Por exemplo, a palavra “densidade” tem um significado óbvio para o radiologista, mas que pode ser reconhecido pelo ChatGPT como um conceito diverso do pretendido pelo especialista, simplesmente pela falta de treinamento com o termo no contexto específico. Seu treinamento nessa linguagem técnica específica poderá melhorar o índice de acertos da IA não apenas na radiologia como um todo, mas também em suas subáreas.

Outro achado digno de nota constatado neste estudo é o fato de o ChatGPT ter analisado todas as assertivas da maior parte das questões que lhe foram apresentadas. Não ficou claro qual fator o motivou a realizar tal análise em algumas questões e em outras não, pois o fenômeno foi observado em perguntas de todas as especialidades e tipos, independentemente de suas características. Ainda assim, mesmo quando a análise de todas as alternativas não é feita de forma espontânea, é possível pedir ao ChatGPT na mensagem seguinte que realize tal avaliação, tendo sido essa solicitação atendida satisfatoriamente neste estudo em 100% das vezes. Essa é uma habilidade que pode vir a ser útil para os residentes que desejam utilizar as questões de provas antigas disponibilizadas pelo CBR como um material de estudo. Mais do que simplesmente indicar a alternativa correta, a plataforma tende a fornecer um estudo completo das assertivas que compõe a pergunta, revisando os temas nela abordados, o que indica um possível papel do ChatGPT como ferramenta auxiliar de estudo, capaz de revisar de forma sucinta, mas eficiente, temas de interesse do residente em radiologia.

Uma das diferenças que este trabalho apresentou em comparação com similares realizados no exterior inclui um maior número de respostas corretas em física (90%) do que em estudo realizado nos Estados Unidos (40%)^{(⁷7 Bhayana R, Krishna S, Bleakney RR. Performance of ChatGPT on a radiology board-style examination: insights into current strengths and limitations. Radiology. 2023;307:e230582.)}. Embora não se possa afirmar com certeza, pode-se questionar se diferenças no conteúdo das perguntas (variações nos tópicos dentro do campo da física que são cobrados em cada país) ou em seu processo de formulação (neste estudo, elas foram criadas por uma comissão especializada do CBR, uma instituição nacional, e no estudo dos Estados Unidos por pesquisadores de um único centro), poderiam contribuir para essa divergência. Além disso, embora ainda não esteja claro, é possível que o idioma também exerça alguma influência na performance do ChatGPT, uma vez que há maior disponibilidade de literatura em língua inglesa para treinamento do modelo e, teoricamente, menor familiaridade com perguntas em português. Além disso, a tradução realizada pela máquina pode não capturar perfeitamente o sentido de alguns dos termos ou expressões naturais em língua portuguesa. Conforme novas publicações em diferentes línguas forem surgindo, espera-se que esse tópico seja elucidado.

Este nosso estudo apresenta limitações. Foram utilizadas apenas questões objetivas teóricas que não envolviam a interpretação de imagens radiológicas, pois o ChatGPT ainda não possui essa capacidade. É possível que o fato de ter sido corrigido após seus erros tenha exercido influência sobre o desempenho do ChatGPT, uma vez que talvez suas respostas tivessem sido diferentes caso não houvesse tal retorno. O quanto essa interação com a máquina impacta o resultado final ainda é um campo de estudo a ser explorado. O número de questões em cada subárea foi relativamente pequeno, o que limita a comparação entre esses grupos. Futuros estudos com maior número de questões poderão enriquecer essa discussão.

CONCLUSÃO

Este estudo mostra que, mesmo sem treinamento dedicado a essa área, o ChatGPT apresenta desempenho razoável, mas ainda insuficiente para aprovação, em questões de radiologia formuladas pelo CBR. Espera-se que o treinamento específico em radiologia de modelos de IA como o ChatGPT venha a tornar seu desempenho em questões dessa especialidade progressivamente melhor, devendo a comunidade radiológica permanecer atenta a essa evolução para aproveitar o seu potencial.

Agradecimento

Os autores agradecem a Comissão de Admissão e Titulação do CBR, na pessoa do Dr. Tulio Augusto Alves Macedo, pela autorização do uso das questões formuladas pelo CBR neste estudo.

REFERENCES

¹
Wang F, Preininger A. AI in health: state of the art, challenges, and future directions. Yearb Med Inform. 2019;28:16-26.
²
Morreel S, Mathysen D, Verhoeven V. Aye, AI! ChatGPT passes multiple-choice family medicine exam. Med Teach. 2023;45:665-6.
³
Huh S. Are ChatGPT’s knowledge and interpretation ability comparable to those of medical students in Korea for taking a parasitology examination?: a descriptive study. J Educ Eval Health Prof. 2023;20:1.
⁴
Rao A, Kim J, Kamineni M, et al. Evaluating ChatGPT as an adjunct for radiologic decision-making. [Preprint]. medRxiv. 2023:2023.02. 02.23285399.
⁵
G1 Globo.com. O que é ChatGPT e por que alguns o veem como ameaça? [cited 2023 June 10]. Available from: https://g1.globo.com/tecnologia/noticia/2023/01/19/o-que-e-chatgpt-e-por-que-alguns-oveem-como-ameaca.ghtml
» https://g1.globo.com/tecnologia/noticia/2023/01/19/o-que-e-chatgpt-e-por-que-alguns-oveem-como-ameaca.ghtml
⁶
OpenAI. Introducing ChatGPT. [cited 2023 June 2]. Available from: https://openai.com/blog/chatgpt/
» https://openai.com/blog/chatgpt/
⁷
Bhayana R, Krishna S, Bleakney RR. Performance of ChatGPT on a radiology board-style examination: insights into current strengths and limitations. Radiology. 2023;307:e230582.
⁸
Dave T, Athaluri SA, Singh S. ChatGPT in medicine: an overview of its applications, advantages, limitations, future prospects, and ethical considerations. Front Artif Intell. 2023;6:1169595.
⁹
Biswas S. ChatGPT and the future of medical writing. Radiology. 2023;307:e223312.
¹⁰
Gilson A, Safranek CW, Huang T, et al. How does ChatGPT perform on the United States Medical Licensing Examination (USMLE)? The implications of large language models for medical education and knowledge assessment. JMIR Med Educ. 2023;9:45312.
¹¹
Weng TL, Wang YM, Chang S, et al. ChatGPT failed Taiwan’s Family Medicine Board Exam. J Chin Med Assoc. 2023;86:762-6.
¹²
Jeblick K, Schachtner B, Dexl J, et al. ChatGPT makes medicine easy to swallow: an exploratory case study on simplified radiology reports. arXiv 2212.14882 [cs.CL]. [cited 2023 June 2]. Available from: https://arxiv.org/abs/2212.14882
» https://arxiv.org/abs/2212.14882
¹³
Colégio Brasileiro de Radiologia e Diagnóstico por Imagem. Avaliação anual de residentes - provas anteriores. [cited 2023 Jun 2]. Available from: https://cbr.org.br/avaliacao-anual-de-residentes-provas-anteriores/
» https://cbr.org.br/avaliacao-anual-de-residentes-provas-anteriores/
¹⁴
Qasrawi R, BeniAbdelrahman A. The higher and lower-order thinking skills (HOTS and LOTS) in unlock English textbooks (1st and 2nd editions) based on Bloom’s taxonomy: an analysis study. International Online Journal of Education and Teaching. 2020;7:744-58.
¹⁵
Alkaissi H, McFarlane SI. Artificial hallucinations in ChatGPT: implications in scientific writing. Cureus. 2023;15:e35179.
¹⁶
Patil NS, Huang RS, van der Pol CB, et al. Comparative performance of ChatGPT and Bard in a text-based radiology knowledge assessment. Can Assoc Radiol J. 2023:8465371231193716.

Datas de Publicação

Publicação nesta coleção
15 Abr 2024
Data do Fascículo
2024

Histórico

Recebido
13 Jul 2023
Revisado
29 Ago 2023
Aceito
15 Set 2023

This is an Open Access article distributed under the terms of the Creative Commons Attribution License, which permits unrestricted use, distribution, and reproduction in any medium, provided the original work is properly cited.

[1] ¹
Wang F, Preininger A. AI in health: state of the art, challenges, and future directions. Yearb Med Inform. 2019;28:16-26.

[2] ²
Morreel S, Mathysen D, Verhoeven V. Aye, AI! ChatGPT passes multiple-choice family medicine exam. Med Teach. 2023;45:665-6.

[3] ³
Huh S. Are ChatGPT’s knowledge and interpretation ability comparable to those of medical students in Korea for taking a parasitology examination?: a descriptive study. J Educ Eval Health Prof. 2023;20:1.

[4] ⁴
Rao A, Kim J, Kamineni M, et al. Evaluating ChatGPT as an adjunct for radiologic decision-making. [Preprint]. medRxiv. 2023:2023.02. 02.23285399.

[5] ⁵
G1 Globo.com. O que é ChatGPT e por que alguns o veem como ameaça? [cited 2023 June 10]. Available from: https://g1.globo.com/tecnologia/noticia/2023/01/19/o-que-e-chatgpt-e-por-que-alguns-oveem-como-ameaca.ghtml
» https://g1.globo.com/tecnologia/noticia/2023/01/19/o-que-e-chatgpt-e-por-que-alguns-oveem-como-ameaca.ghtml

[6] ⁶
OpenAI. Introducing ChatGPT. [cited 2023 June 2]. Available from: https://openai.com/blog/chatgpt/
» https://openai.com/blog/chatgpt/

[7] ⁷
Bhayana R, Krishna S, Bleakney RR. Performance of ChatGPT on a radiology board-style examination: insights into current strengths and limitations. Radiology. 2023;307:e230582.

[8] ⁸
Dave T, Athaluri SA, Singh S. ChatGPT in medicine: an overview of its applications, advantages, limitations, future prospects, and ethical considerations. Front Artif Intell. 2023;6:1169595.

[9] ⁹
Biswas S. ChatGPT and the future of medical writing. Radiology. 2023;307:e223312.

[10] ¹⁰
Gilson A, Safranek CW, Huang T, et al. How does ChatGPT perform on the United States Medical Licensing Examination (USMLE)? The implications of large language models for medical education and knowledge assessment. JMIR Med Educ. 2023;9:45312.

[11] ¹¹
Weng TL, Wang YM, Chang S, et al. ChatGPT failed Taiwan’s Family Medicine Board Exam. J Chin Med Assoc. 2023;86:762-6.

[12] ¹²
Jeblick K, Schachtner B, Dexl J, et al. ChatGPT makes medicine easy to swallow: an exploratory case study on simplified radiology reports. arXiv 2212.14882 [cs.CL]. [cited 2023 June 2]. Available from: https://arxiv.org/abs/2212.14882
» https://arxiv.org/abs/2212.14882

[13] ¹³
Colégio Brasileiro de Radiologia e Diagnóstico por Imagem. Avaliação anual de residentes - provas anteriores. [cited 2023 Jun 2]. Available from: https://cbr.org.br/avaliacao-anual-de-residentes-provas-anteriores/
» https://cbr.org.br/avaliacao-anual-de-residentes-provas-anteriores/

[14] ¹⁴
Qasrawi R, BeniAbdelrahman A. The higher and lower-order thinking skills (HOTS and LOTS) in unlock English textbooks (1st and 2nd editions) based on Bloom’s taxonomy: an analysis study. International Online Journal of Education and Teaching. 2020;7:744-58.

[15] ¹⁵
Alkaissi H, McFarlane SI. Artificial hallucinations in ChatGPT: implications in scientific writing. Cureus. 2023;15:e35179.

[16] ¹⁶
Patil NS, Huang RS, van der Pol CB, et al. Comparative performance of ChatGPT and Bard in a text-based radiology knowledge assessment. Can Assoc Radiol J. 2023:8465371231193716.

Característica da questão	Número de questões	Acertos n (%)	P
Tipo
Ordem inferior	59	38 (64,4)
Ordem superior	106	50 (47,2)
Descrição de achados	42	22 (52,4)	0,81^* * Teste exato de Fisher.
Manejo clínico	22	12 (54,5)	0,72^* * Teste exato de Fisher.
Aplicar conceito	57	38 (66,7)	0,67^* * Teste exato de Fisher.
Cálculo/classificação	8	3 (37,5)	0,92^* * Teste exato de Fisher.
Associar doenças	26	11 (42,3)	0,63^* * Teste exato de Fisher.
Anatomia	10	2 (20,0)	0,58^* * Teste exato de Fisher.
Tema
Física	20	18 (90,0)	0,02^* * Teste exato de Fisher.
Clínica	145	68 (46,8)	0,41^* * Teste exato de Fisher.
Abdome	20	13 (65,0)	0,62^† † Análise de variância.
Tórax	15	9 (60,0)	0,56^† † Análise de variância.
Neurorradiologia	15	5 (33,3)	0,76^† † Análise de variância.
Musculoesquelético	15	8 (53,3)	0.87^† † Análise de variância.
Mama	15	7 (46,7)	0,61^† † Análise de variância.
Meios de contraste	15	9 (60,0)	0,94^† † Análise de variância.
Ultrassonografia	15	3 (20,0)	0,78^† † Análise de variância.
Pediatria	15	10 (66,7)	0,93^† † Análise de variância.
Ginecologia e obstetrícia	10	2 (20,0)	0,72^† † Análise de variância.
Miscelânea	10	4 (40,0)	0,65^† † Análise de variância.
Total	165	88 (53,3)	0,01^* * Teste exato de Fisher.