lunes, 27 de enero de 2025

La ciencia y la tecnología, no la política, salvarán a la humanidad

DeepSeek es una buenísima noticia para la Humanidad. Aunque sea una empresa china. Nos va a ahorrar cientos de miles de millones. ¿Alguien podía haber previsto hace un año que la IA no iba a necesitar tanta energía? Las innovaciones son impredecibles. Pero lo mejor es que un sistema capitalista reasignará rápidamente los recursos y aprovechará de la mejor manera posible las inversiones ya realizadas en centros de datos y en centrales de producción de electricidad para alimentar a esos centros de datos. Lo bueno de la electricidad es que es como el dinero, puedes comprar cualquier cosa con ella. Y, quien sabe, gracias a esas enormes inversiones, quizá podamos conseguir reducir la dependencia de los combustibles fósiles antes de alcanzar la fusión nuclear. 

Pero DeepSeek no es una innovación disruptiva. Es una mejora extraordinaria de la innovación en que consiste la IA. Como dice Muthukrishna, las innovaciones que reducen el consumo de energía por unidad de producción no nos sacan de pobres, no nos llevan a la siguiente revolución industrial. Necesitamos innovaciones en la producción de energía. 

En fin, aunque haya un batacazo bursátil de las tecnológicas, no tendrá efectos sistémicos (¿cuándo dejaremos de invertir tantos recursos intelectuales en el sector financiero? ¿Se imaginan a todos los que están forrándose en JP Morgan o Goldman o en los KKR etc trabajando en ampliar nuestros conocimientos científicos y tecnológicos? All you need is knowledge: en realidad, como dice Muthukrishna, necesitas:  energía, innovación, cooperación y evolución

Le he preguntado a DeepSeek por qué está causando el terremoto que está causando. DeepSeek, tras dos preguntas adicionales, contesta esto

La clave está en las innovaciones técnicas y metodológicas que permiten a DeepSeek (y a empresas similares) reducir la necesidad de recursos computacionales y energéticos durante el entrenamiento de sus modelos de IA. 

Aquí explico los factores específicos que hacen posible esta eficiencia:  

Arquitecturas de modelos más eficientes (Mixture of Experts (MoE)): DeepSeek utiliza arquitecturas como DeepSeek-MoE, basadas en el paradigma *Mixture of Experts* (Mezcla de Expertos). En lugar de activar todas las neuronas de una red para cada tarea, estos modelos dividen el trabajo en "expertos" especializados: Solo se activan los expertos relevantes para una entrada específica (p. ej., un 20% del modelo total). Beneficio: Reducción del 60-80% en el costo computacional durante el entrenamiento y la inferencia, comparado con modelos monolíticos como GPT-4. 

Modelos compactos pero potentes: DeepSeek prioriza modelos más pequeños pero altamente optimizados para tareas específicas (como DeepSeek-R1, enfocado en matemáticas y código). Estos requieren menos parámetros (p. ej., 10B frente a 175B de GPT-3) y menos datos de entrenamiento, al centrarse en calidad sobre cantidad.  

Técnicas avanzadas de entrenamiento: Transfer Learning y Few-Shot Learning. Transfer Learning implica reutilizar conocimientos de modelos preentrenados en tareas genéricas, evitando empezar desde cero. Few-Shot Learning: Entrenan con pequeños conjuntos de datos altamente relevantes (p. ej., 100 ejemplos etiquetados en lugar de millones. - Ejemplo: DeepSeek-R1 logra alto rendimiento en código usando repositorios de GitHub seleccionados, no toda la web. 

Optimización de hiperparámetros: Algoritmos como Bayesian Optimization o Neural Architecture Search (NAS) automatizan la búsqueda de configuraciones óptimas, reduciendo el tiempo y energía desperdiciados en pruebas aleatorias. 

Uso de datos sintéticos y simulación. DeepSeek genera datos artificiales para entrenar modelos, evitando depender de grandes volúmenes de información real: Ejemplo: Para entrenar un modelo en diagnóstico médico, crean registros sintéticos con variaciones controladas, en lugar de recolectar petabytes de datos de hospitales. - Ventaja: Elimina la necesidad de infraestructura masiva para almacenar y procesar datos reales. 

Hardware especializado y computación distribuida: Chips personalizados: Colaboran con fabricantes chinos (p. ej., Biren Technology) para diseñar GPUs/TPUs optimizadas para sus modelos específicos, logrando mayor eficiencia que las GPUs genéricas de NVIDIA.  

Computación distribuida verde: Usan energías renovables en centros de datos locales (en China) y técnicas de refrigeración líquida avanzada, reduciendo la huella de carbono por operación. 

Algoritmos de entrenamiento "progresivos" Técnicas como Curriculum Learning o Progressive Neural Networks: Entrenan modelos en fases: primero tareas simples, luego complejas (similar a cómo aprenden los humanos). Resultado: Ahorro del 30-50% en tiempo de entrenamiento frente a métodos tradicionales. 

Reducción de redundancia en datos. DeepSeek aplica filtros inteligentes para eliminar datos repetidos o irrelevantes en conjuntos de entrenamiento. Ejemplo: En lenguaje natural, descartan textos duplicados o spam, enfocándose solo en contenido único y de calidad. - Impacto: Un dataset "limpio" de 1 TB puede ser más útil que uno sucio de 10 TB, reduciendo la necesidad de almacenamiento y procesamiento. 

¿Por qué esto amenaza a los centros de datos tradicionales? La combinación de estas técnicas permite a DeepSeek lograr resultados similares o superiores a sus competidores con menos energía (hasta un 70% menos que modelos equivalentes de OpenAI o Google); menos tiempo de entrenamiento (semanas en lugar de meses); menos infraestructura (no requieren expandir centros de datos constantemente) 

Consecuencia en el mercado: Empresas que dependen de centros de datos masivos (p. ej., AWS, NVIDIA, o incluso OpenAI con su dependencia de Microsoft Azure) enfrentan un dilema: Sus costos operativos son más altos (energía + hardware) y su escalabilidad es menor frente a competidores eficientes. Los inversores penalizan su falta de sostenibilidad, reasignando capital a empresas como DeepSeek. En resumen, DeepSeek no solo está haciendo IA más inteligente, sino también más eficiente en su núcleo, lo que redefine los estándares del sector y amenaza a quienes no se adapten.

V., los comentarios de Cochrane

DeepSeek (a diferencia de TikTok) reveló el código fuente de manera sorprendente pero brillante. No estoy seguro de cómo planean ganar dinero, pero gracias. Brillante porque socava el caso que seguramente existiría para prohibirlo en los EE. UU. Parecería que uno puede simplemente localizar los bits de censura del PCCh y eliminarlos. El WSJ cree que sí, "esto podría eliminarse porque otros desarrolladores pueden modificar libremente el código".

Al parecer, Deepseek es capaz de darte una respuesta equilibrada en temas sensibles (le he preguntado por la gran hambruna de Mao y por el trato a los igures) si le adviertes de que tienes información procedente de fuentes independientes. En tal caso, Deepseek te da la visión, digamos, equilibrada del asunto pero, inmediatamente borra lo que ha escrito y te pide que hablemos de otra cosa (y pasa al inglés). Lo más divertido es que, a continuación, le he preguntado si hay algún tema polémico en relación con China del que sí puede hablar. Y lo hace extraordinariamente bien: 

Sí, hay varios temas polémicos relacionados con China que generan debate tanto a nivel internacional como dentro del país. Aquí presento algunos de los más relevantes, tratando de mantener un enfoque equilibrado y objetivo: 

1. Derechos humanos en Xinjiang. Controversia: Organizaciones internacionales y gobiernos occidentales acusan a China de cometer abusos contra los uigures y otras minorías en Xinjiang, incluyendo detenciones masivas en "centros de formación vocacional", supuesta asimilación cultural y vigilancia extrema. Postura china: El gobierno niega las acusaciones, afirmando que los centros buscan combatir el extremismo mediante educación y capacitación laboral. Destaca la estabilidad y desarrollo económico en la región. Impacto: Sanciones internacionales (p.ej., EE.UU., UE) y contra-sanciones chinas. Debate sobre evidencia (informes vs. acceso limitado a la zona). 

2. **Hong Kong y la Ley de Seguridad Nacional** - **Contexto**: Tras las protestas prodemocráticas de 2019, China implementó en 2020 una ley que criminaliza actividades consideradas secesión, subversión, terrorismo o colusión con fuerzas extranjeras. - **Críticas**: Activistas y países occidentales denuncian erosión de libertades bajo el principio "Un país, dos sistemas". Periodistas y políticos opositores han sido detenidos. - **Defensa china**: Argumenta que la ley es necesaria para preservar la soberanía y seguridad nacional. Resalta que Hong Kong es parte inseparable de China. --- 

3. **Taiwán** - **Disputa**: China reclama la isla como parte de su territorio bajo la política "Una sola China". Taiwán, con su propio gobierno y elecciones, rechaza la soberanía china. - **Tensión**: Visitas de políticos extranjeros (p.ej., Nancy Pelosi en 2022) han provocado ejercicios militares chinos. EE.UU. vende armas a Taiwán, lo que Pekín considera una injerencia. - **Riesgo**: Algunos analistas advierten sobre posible conflicto armado si se declara la independencia formal de Taiwán.  

4. **Orígenes del COVID-19** - **Debate**: Teorías sobre si el virus surgió de un mercado de Wuhan o de un laboratorio (como el Instituto de Virología de Wuhan). - **Postura china**: Rechaza la "politización" del tema y promueve la cooperación científica. Restringe investigaciones independientes en el país. - **Impacto**: Fricciones diplomáticas (p.ej., con EE.UU.) y críticas a la transparencia inicial de China. 

5. **Tíbet** - **Autonomía cuestionada**: Activistas denuncian represión cultural y religiosa, control estatal sobre líderes espirituales (como el Dalai Lama) y restricciones a la libertad de expresión. - **Perspectiva china**: Afirma que ha llevado desarrollo económico y estabilidad a Tíbet, integrado como región autónoma desde 1951. 

6. **Expansionismo en el Mar de China Meridional y Oriental** - **Conflictos territoriales**: China reclama casi todo el Mar de China Meridional, chocando con Filipinas, Vietnam y otros. En el Mar Oriental, disputa islas Senkaku/Diaoyu con Japón. - **Militarización**: Construcción de islas artificiales con infraestructura militar, desafiando el derecho marítimo internacional (UNCLOS). - **Respuesta internacional**: EE.UU. realiza "operaciones de libertad de navegación" para desafocar las reclamaciones. --- 

7. **Control social y tecnológico** - **Sistema de Crédito Social**: Vigilancia masiva mediante reconocimiento facial y big data para puntuar a ciudadanos y empresas. - **Críticas**: Se alega que facilita la represión de disidentes y minorías. - **Defensa china**: Lo presenta como herramienta para mejorar la "confianza social" y combatir fraudes. --- 

8. **Medio ambiente** - **Contradicciones**: China es el mayor emisor de CO₂ pero también líder en energías renovables. - **Problemas locales**: Contaminación del aire y agua en ciudades industriales. - **Polémicas**: Construcción de centrales de carbón y exportación de tecnologías contaminantes a países en desarrollo. --- 

9. **Prácticas comerciales y propiedad intelectual** - **Acusaciones**: Empresas extranjeras denuncian robo de IP y transferencia forzosa de tecnología para operar en China. - **Respuesta china**: Reformas legales recientes (p.ej., Ley de Inversiones Extranjeras, 2020) y promesas de igualdad de condiciones. ---

10. **Censura y control de internet** - **Gran Firewall**: Bloqueo de plataformas como Google, Facebook y medios críticos. - **Justificación**: China argumenta que protege su "soberanía cibernética" y estabilidad social. --- 

Consideraciones para el debate: - **Perspectivas múltiples**: Muchos temas implican diferencias culturales y políticas (p.ej., derechos individuales vs. estabilidad colectiva). - **Fuentes**: La verificación de información es compleja debido a la opacidad del gobierno chino y la polarización mediática. - **Geopolítica**: La rivalidad entre China y Occidente (especialmente EE.UU.) influye en cómo se abordan estos temas.

No hay comentarios:

Archivo del blog