
La solucion destacada es crear un entorno - espacio de simulacion para que el actor de la IA practique tareas multitareas llamadas aprendizaje intensivo (RL). Similar a la forma en que los datos etiquetados impulsaron la era de los chatbots el entorno RL se esta convirtiendo en un factor importante para la nueva generacion de IA.
Los fondos de capital riesgo las empresas emergentes y los laboratorios de IA se unen a esta carrera. Andreessen Horowitz opina que todos los grandes laboratorios construyen un entorno RL interno y al mismo tiempo buscan socios externos.
Muchas nuevas empresas como Mechanize y Prime Intellect han recaudado grandes cantidades de capital para desarrollar plataformas ambientales mientras que los gigantes relacionados con los datos como Scale AI Surge y Mercor tambien han cambiado su enfoque de inversion para no quedarse atras.
Algunas transacciones muestran el calor de la tendencia: Se dice que Anthropic esta considerando gastar mas de 1.000 millones de dolares en el entorno RL; Surge alcanzo unos ingresos de 1.000 millones de dolares el año pasado gracias a la cooperacion con OpenAI Google y Meta; Mercor - valorado en 10.000 millones de dolares.
La esencia del entorno RL es simular como la IA opera el software por ejemplo se solicita a un individuo que compre en Amazon y se le puntua segun los resultados. El trabajo parece simple pero requiere un entorno lo suficientemente sofisticado como para registrar incluso comportamientos inesperados. Esto hace que RL sea mucho mas complejo y costoso que los datos tinh.
Si bien la oportunidad de expandir RL sigue siendo controvertida Silicon Valley todavia la considera una de las direcciones importantes para promover el progreso de la IA con la expectativa de recrear la ola de datos etiquetados que creo ChatGPT.