Världen håller på att ta slut på data för att fortsätta träna AI. Kina har ett ess i rockärmen
Artificiell intelligens (AI)-modeller har ett problem som mer kraftfulla chips inte kan lösa: de håller på att ta slut på data. Epoch AI, en ideell forskningsorganisation som specialiserat sig på att skala AI-modeller, varnar med 80 % säkerhet för att den högkvalitativa texten som finns tillgänglig på internet kommer att ta slut någon gång mellan 2026 och 2032. Anledningen är enkel: AI-laboratorier har utvunnit allt som webben har att erbjuda i många år, och nuvarande modeller tränar redan på den tillgängliga datauppsättningen som närmar sig den tillgängliga datauppsättningen.
När den guldgruvan töms slutar skalning av datavolymer att fungera. Och om detta scenario inträffar kommer AI-utvecklingen troligen att sakta ner. Vi vet fortfarande inte vilken strategi amerikanska företag utvecklar för att lösa detta problem, men vi vet redan vad Kina förbereder.
Hans största rival. Faktum är att Xi Jinpings regering har beslutat att denna brist är en möjlighet. Den här veckan publicerade Kinas nationella dataadministration ett utkast som beskriver dess handlingsplan med ett tydligt mål: att bygga ett ekosystem av validerad data till 2028 som kommer att driva nästa generations AI-modeller.
Kinas satsning ligger redan på bordet. Det dokument som Dataverket utarbetat identifierar vilka specifika sektorer som är prioriterade mål för informationsgenerering och certifiering. Några av dem är vetenskaplig forskning, tillverkning, jordbruk, energi, transport, finans, sjukvård, utbildning och e-handel.
Men hans plan stannar inte vid traditionella sektorer. I Xataka Nuclear fusion: den sydkoreanska KSTAR-reaktorn har skrivit om gränserna för vad som är möjligt Kina har en strukturell fördel som inget västerländskt laboratorium lätt kan replikera Och det överväger också att täcka spjutspetsfält med kvalitetsdata, såsom AI tillämpad på robotar, autonom körning, låghöjdsflyg eller biotillverkning. Det är just de domäner vars data inte finns på Internet eftersom det kommer från sensorer, ställdon och fysiska miljöer.
För att uppnå dem krävs industriell infrastruktur, och i detta scenario har Kina en strukturell fördel som inget västerländskt laboratorium lätt kan replikera.
Detta är dock inte allt. Dokumentet som utarbetats av National Data Administration uppmuntrar uttryckligen att utöka utbudet av text, kod, bilder, ljud och video som är nödvändigt för att utbilda system som klarar av komplexa resonemang, agentbeteende och kontroll av intelligenta robotar. I själva verket är det en nästan exakt beskrivning av vad branschen kallar nästa generations modeller.
De är inte bara system som kan svara på frågor; De kommer också att kunna planera, agera och verka i den fysiska världen.
Tillgängligheten av högkvalitativa multimodala data i dagens industrimiljö är idag Flaskhalsar mindre diskuterade och mer avgörande för AI:s karriär. I ett scenario där tillgången till banbrytande chips begränsas av amerikanska exportkontroller, blir data en konkurrensfördel. Om Kina inte kan vinna hårdvarutävlingen, kan det försöka vinna bränsleracet som den hårdvaran behöver vara riktigt användbar.
Bild | Daoducquan Mer information | SCMP i Xataka | Fördömandet som drabbar Kina: efter decennier av tillverkning av en konkurrenskraftig stationär processor ligger den sex år efter
Originalkälla
Publicerad av Xataka
10 june 2026, 17:30
Denna artikel har översatts automatiskt från spanska. Klicka på länken ovan för att läsa originaltexten.
Visa originaltext (spanska)
Rubrik
El mundo se está quedando sin datos para seguir entrenando a la IA. China tiene un as en la manga
Beskrivning
Los modelos de inteligencia artificial (IA) tienen un problema que los chips más potentes no pueden resolver: se están quedando sin datos. Epoch AI, una organización de investigación sin ánimo de lucro especializada en el escalado de modelos de IA, advierte con un 80% de certeza que el texto de alta calidad disponible en internet se agotará en algún momento entre 2026 y 2032. El motivo es muy sencillo: los laboratorios de IA llevan muchos años extrayendo todo lo que la web tiene para ofrecer y los modelos actuales ya entrenan sobre conjuntos de datos que se aproximan al límite teórico de la información disponible. Cuando esa mina de oro se vacíe, el escalado por volumen de datos dejará de funcionar. Y si este escenario se produce el desarrollo de la IA con toda probabilidad se ralentizará. Todavía no sabemos qué estrategia están poniendo a punto las empresas de EEUU para resolver este problema, pero ya conocemos qué está preparando China. Su mayor rival. De hecho, el Gobierno de Xi Jinping ha decidido que esta escasez es una oportunidad. Esta semana la Administración Nacional de Datos de China ha publicado un borrador que describe su plan de acción con un objetivo claro: construir antes de 2028 un ecosistema de datos validados que sirva de combustible para la siguiente generación de modelos de IA. La apuesta de China ya está sobre la mesaEl documento que ha elaborado la Administración Nacional de Datos identifica qué sectores concretos son objetivos prioritarios de generación y certificación de la información. Algunos de ellos son la investigación científica, la manufactura, la agricultura, la energía, el transporte, las finanzas, la sanidad, la educación y el comercio electrónico. No obstante, su plan no se detiene en los sectores tradicionales. En Xataka Fusión nuclear: el reactor surcoreano KSTAR ha reescrito los límites de lo posible China tiene una ventaja estructural que ningún laboratorio occidental puede replicar fácilmente Y es que también contempla cubrir con datos de calidad los campos de vanguardia, como la IA aplicada a los robots, la conducción autónoma, la aviación de baja altitud o la biomanufactura. Estos son, precisamente, los dominios cuyos datos no están en internet debido a que proceden de sensores, actuadores y entornos físicos. Conseguirlos requiere disponer de infraestructura industrial, y en este escenario China tiene una ventaja estructural que ningún laboratorio occidental puede replicar fácilmente. No obstante, esto no es todo. El documento elaborado por la Administración Nacional de Datos fomenta explícitamente la expansión de la oferta de texto, código, imágenes, audio y vídeo necesaria para entrenar sistemas capaces de razonamiento complejo, comportamiento agéntico y control de robots inteligentes. De hecho, es una descripción casi exacta de lo que la industria llama modelos de próxima generación. No son solo sistemas capaces de responder preguntas; también podrán planificar, actuar y operar en el mundo físico. {"videoId":"x8jpy2b","autoplay":false,"title":"¿Qué hay DETRÁS de IAs como CHATGPT, DALL-E o MIDJOURNEY? | INTELIGENCIA ARTIFICIAL", "tag":"Webedia-prod", "duration":"1173"} La disponibilidad de datos multimodales de alta calidad, especialmente los que proceden de entornos industriales reales, es hoy uno de los cuellos de botella menos discutidos y más determinantes de la carrera de la IA. En un escenario en el que el acceso a los chips de vanguardia está restringido por los controles de exportación de EEUU, los datos se convierten en una ventaja competitiva. Si China no puede ganar la carrera del hardware, puede intentar ganar la del combustible que ese hardware necesita para ser realmente útil. Imagen | Daoducquan Más información | SCMP En Xataka | La condena que aflige a China: tras décadas fabricando un procesador de escritorio competitivo, va seis años por detrás (function() { window._JS_MODULES = window._JS_MODULES || {}; var headElement = document.getElementsByTagName('head')[0]; if (_JS_MODULES.instagram) { var instagramScript = document.createElement('script'); instagramScript.src = 'https://platform.instagram.com/en_US/embeds.js'; instagramScript.async = true; instagramScript.defer = true; headElement.appendChild(instagramScript); } })(); - La noticia El mundo se está quedando sin datos para seguir entrenando a la IA. China tiene un as en la manga fue publicada originalmente en Xataka por Laura López .