De har satt de 21 mest populära AI-chatbotarna för att utföra differentialdiagnoser. De misslyckas mer än ett rättvist hagelgevär
'House' är en serie som jag älskar. Jag bryr mig inte det minsta om intrastoryerna, men processen med differentialdiagnostik - trots allt filmprylar - gör mig galen. Denna förmåga att utesluta sjukdomar som kan förklara samma symtom för att komma fram till den mest sannolika diagnosen verkar för mig som häxkonst.
Tja: de har satt de 21 mest populära AI-chatbotarna för att utföra denna differentialdiagnos och resultatet är tydligt. Det misslyckas mer än ett hagelgevär.
Kort sagt. Massgeneral Brigham är inte vem som helst. Det är ett icke-vinstdrivande nätverk av amerikanska läkare och sjukhus, inklusive två av de mest prestigefyllda medicinska läroanstalterna i landet.
Från januari till december 2025 satte en grupp forskare från institutionen 21 AI-chatbotar som Claude 4.5 Opus, DeepSeek, Gemini 3.0 Pro, GPT-5 eller Grok 4 för att utvärdera dussintals kliniska fall i syfte att fastställa deras framgångsnivå vid en tidig diagnos. Informationen är extremt grundläggande, men det är också vad professionella har när de ställer denna differentialdiagnos och den yttersta avsikten är att utvärdera den kliniska resonemangskapaciteten hos den senaste generationens språkmodeller för att se om de kan vara en klinisk allierad.
Svaret är nej. Även om modeller optimerade för resonemang uppnådde mycket högre poäng än enklare som Gemini 1.5 Flash, är slutsatsen att LLM fortfarande är begränsade för denna uppgift. På Xataka OpenAI går helt in i hälsa av en enkel anledning: ChatGPT är redan vår första linjens läkare (även om vi inte vill erkänna det) Examen.
Var och en av modellerna fick 29 kliniska fall som representerar mer än 16 200 svar totalt. Resultatet är att de nyare versionerna av de mest kraftfulla chatbotarna inte kunde ge en adekvat differentialdiagnos i cirka 80 % av fallen när de bara hade grundläggande patientinformation. Problemet är att ålder, kön och symtom är väldigt vag information, ja, men det är en som mänskliga yrkesverksamma som måste ställa denna differentialdiagnos "leker" med för första gången.
Allt eftersom de gör andra tester och får mer information förfinar de resultatet, men det är den första behandlingen som ofta gör skillnaden. "Vi vill hjälpa till att skilja hypen från verkligheten av dessa verktyg när de tillämpas på sjukvården" En Xataka En ChatGPT dedikerad till att ge dig medicinsk rådgivning utan tillsyn verkade vara en riskabel idé. Och en annan film bekräftar det. Och precis, eftersom LLM:erna fick mer data, var prestandan och resultaten mer robusta.
När chatboten har mer och mer information såsom fysisk analysdata, laboratorieresultat och diagnostiska bilder förändras saker och AI och når den slutliga diagnosen i mer än 90 % av fallen. Men för att nå det stadiet måste de naturligtvis ha nästan alla kliniska data, vilket ytterligare visar gapet med impotens när de utför en initial filtrering.
Lita inte på Google ChatGPT. Forskarna är tydliga med att "dessa modeller är mycket bra på att identifiera en slutlig diagnos när uppgifterna är klara, men de har svårigheter i början av ett öppet fall", vilket får dem att betona att de inte ska lita på hemma.
AI-industrin driver sin produkt in i den medicinska kretsen, men studien påpekar att "trots kontinuerliga förbättringar är kommersiella LLM inte redo för oövervakad klinisk implementering." De konstaterar att det behövs en människa i verksamheten och ”mycket noggrann övervakning” för att kunna skala användningen av en LLM inom sjukvården. Och där pratar man alltid om professionell användning, men fler och fler fall ses av personer som tidigare behandlat sig själva genom att lita på Google och som nu gör det genom att lita på vad ChatGPT säger till dem. I studien betonar de att "hallucinationer kvarstår" i den här senaste generationens modeller, vilket också visar oro för patienters säkerhet och integritet.
I Xataka äter Gemini ChatGPTs toast. Och OpenAI har svarat med att integrera en fickläkare Lo från El Salvador. I vilket fall som helst är det uppenbart att medicinsk AI i slutändan bara är ytterligare en hjälpare, ett verktyg, och här är det som har testats en "vanlig" chatbot som vet allt, men som inte är specialiserad på någonting.
Inom medicin, liksom i andra branscher, kan användningen av AI hjälpa till med uppgifter som att eliminera möjligheter eller organisera tusentals data, men en chatbot är ännu inte en bra följeslagare i denna differentialdiagnos eftersom den helt enkelt inte går att lita på. De som kommer att behöva lita på AI för alla typer av behandling är salvadoraner. El Salvador har varit ett pionjärland när det gäller att ta till sig ny teknik, och presidenten, Nayib Bukele, har precis inlett ett annat experiment: 500 miljoner dollar för att lämna sjukvården i händerna på Tvillingarna.
Befolkningen får tillgång till Dr.SV-appen som ska fungera som husläkare. Som beskrivs i El País kommer denna AI att känna till symptomen och kommer att tilldela samtal med läkare som kommer att ställa diagnosen. AI kommer att övervaka konsultationer och kroniska sjukdomar och målet är att den ska ta hand om cancerpatienter i framtiden.
Enligt Bukele skapar de det bästa hälsosystemet i världen, något konstigt med tanke på att de sade upp mer än 7 700 anställda inom hälsosystemet under 2025. Låt oss för salvadoranernas skull hoppas att detta nya experiment inte slutar som Bitcoin City. I Xataka | Integriteten har dött sedan ChatGPT kom.
Nu är vår besatthet att AI känner oss så bra som möjligt (instagramScript) De har lagt de 21 mest populära AI-chatbotarna till att utföra differentialdiagnoser.
Originalkälla
Publicerad av Xataka
16 april 2026, 13:00
Denna artikel har översatts automatiskt från spanska. Klicka på länken ovan för att läsa originaltexten.
Visa originaltext (spanska)
Rubrik
Han puesto a los 21 chatbots de IA más populares a realizar diagnóstico diferencial. Fallan más que una escopeta de feria
Beskrivning
‘House’ es una serie que me encanta. Las intrahistorias no me importan lo más mínimo, pero el proceso del diagnóstico diferencial -pese a todo lo peliculero-, me vuelve loco. Esa capacidad para ir descartando enfermedades que podían explicar unos mismos síntomas para llegar al diagnóstico más probable me parece brujería. Bien: han puesto a los 21 chatbots de IA más populares a realizar ese diagnóstico diferencial y el resultado es claro. Falla más que una escopeta de feria. En corto. El Mass General Brigham no es un ‘cualquiera’. Se trata de una red de médicos y hospitales estadounidenses sin fines de lucro entre los que se encuentran dos de las instituciones de enseñanza médica más prestigiosas del país. De enero a diciembre de 2025, un grupo de investigadores de la institución pusieron a 21 chatbots de IA como Claude 4.5 Opus, DeepSeek, Gemini 3.0 Pro, GPT-5 o Grok 4 a evaluar decenas de casos clínicos con el objetivo de establecer cuál era su nivel de acierto en un diagnóstico temprano. La información es extremadamente básica, pero también es la que tienen los profesionales a la hora de realizar ese diagnóstico diferencial y la intención última es evaluar la capacidad de razonamiento clínico de los modelos de lenguaje de última generación para ver si pueden ser un aliado clínico. La respuesta es que no. Mientras modelos optimizados para el razonamiento lograron puntuaciones mucho más altas que otros más simples como Gemini 1.5 Flash, la conclusión es que los LLM siguen siendo limitados para esta tarea. En Xataka OpenAI entra de lleno en la salud por una simple razón: ChatGPT ya es nuestro médico de primera línea (aunque no queramos admitirlo) El examen. A cada uno de los modelos se le entregó 29 casos clínicos que representan más de 16.200 respuestas en total. El resultado es que esas versiones más recientes de los chatbots más potentes no pudieron producir un diagnóstico diferencial adecuado en alrededor del 80% de los casos cuando sólo tenían información básica del paciente. El problema es que edad, sexo y síntomas es una información muy vaga, sí, pero con la que ‘juegan’ por primera vez los profesionales humanos que tienen que realizar ese diagnóstico diferencial. Poco a poco, a medida que van haciendo otras pruebas y obteniendo más información, afinan el resultado, pero es ese primer tratamiento de ‘descarte’ el que marca la diferencia muchas veces. "Queremos ayudar a separar el bombo de la realidad de estas herramientas a medida que se aplican a la atención médica" En Xataka Un ChatGPT dedicado a darte consejos médicos sin supervisión parecía una idea arriesgada. Y lo está confirmando Otra película. Y, precisamente, a medida que a los LLM se les iban dando más datos, el rendimiento y resultados fueron más robustos. Cuando el chatbot tiene más y más información como los datos de un análisis físico, los resultados de laboratorio y las imágenes diagnósticas, la cosa cambia y la IA llega al diagnóstico final en más del 90% de los casos. Pero claro, para llegar a ese escenario deben tener casi todos los datos clínicos, lo que evidencia aún más la brecha con la impotencia a la hora de realizar un filtrado inicial. {"videoId":"x8px49v","autoplay":true,"title":"Los ANTIBIÓTICOS están DEJANDO de SER EFECTIVOS y el PROBLEMA son las SUPERBACTERIAS", "tag":"Webedia-prod", "duration":"327"} No te fíes de Google ChatGPT. Los investigadores tienen claro que “estos modelos son muy buenos para identificar un diagnóstico final cuando los datos están completos, pero tienen dificultades al inicio de un caso abierto”, lo que les lleva a enfatizar que no hay que fiarse de ellos en casa. La industria de la IA está empujando su producto en el circuito médico, pero desde el estudio apuntan que “a pesar de las mejoras continuas, los LLM comerciales no están listos para su implementación clínica sin supervisión”. Afirman que se necesita un humano en la operación y “una supervisión muy estrecha” para poder escalar el uso de un LLM en el ámbito sanitario. Y ahí están hablando en todo momento del uso profesional, pero cada vez más se ven casos de personas que antes se autotrataban confiando en Google y que ahora lo hacen fiándose de lo que le dice ChatGPT. En el estudio enfatizan que “las alucinaciones permanecen” en estos modelos de última generación mostrando, además, preocupaciones sobre la seguridad y la integridad de los pacientes. En Xataka Gemini está comiéndole la tostada a ChatGPT. Y OpenAI ha respondido integrando un médico de bolsillo Lo de El Salvador. De la manera que sea, es evidente que, al final, la IA médica es un ayudante más, una herramienta, y aquí lo que se ha puesto a prueba es un chatbot “común” que sabe de todo, pero no está especializado en nada. En medicina, como en otras industrias, el uso de una IA puede ayudar en tareas como eliminación de posibilidades u ordenación de miles de datos, pero un chatbot aún no es un buen compañero en ese diagnóstico diferencial porque, sencillamente, no se puede confiar en él. Quienes sí van a tener que confiar en la IA para cualquier tipo de tratamiento son los salvadoreños. El Salvador ha sido un país pionero a la hora de adoptar nuevas tecnologías, y el presidente, Nayib Bukele, acaba de emprender otro experimento: 500 millones de dólares para dejar la sanidad en manos de Gemini. La población tendrá acceso a la app Dr.SV que ejercerá de médico de familia. Como detallan en El País, esta IA sabrá los síntomas y asignará llamadas con médicos que realizarán el diagnóstico. La IA hará el seguimiento para consultas y enfermedades crónicas y el objetivo es que se ocupe de pacientes con cáncer en un futuro. Según Bukele, están creando el mejor sistema de salud del mundo, algo curioso teniendo en cuenta que despidieron a más de 7.700 empleados del sistema de salud durante 2025. Por el bien de los salvadoreños, esperemos que ese nuevo experimento no termine como la Bitcoin City. En Xataka | La privacidad está muriendo desde que llegó ChatGPT. Ahora nuestra obsesión es que la IA nos conozca lo mejor posible (function() { window._JS_MODULES = window._JS_MODULES || {}; var headElement = document.getElementsByTagName('head')[0]; if (_JS_MODULES.instagram) { var instagramScript = document.createElement('script'); instagramScript.src = 'https://platform.instagram.com/en_US/embeds.js'; instagramScript.async = true; instagramScript.defer = true; headElement.appendChild(instagramScript); } })(); - La noticia Han puesto a los 21 chatbots de IA más populares a realizar diagnóstico diferencial. Fallan más que una escopeta de feria fue publicada originalmente en Xataka por Alejandro Alcolea .