Tienda de dapps | Hub de Web3 para eventos y juegos

Temas en tendencia

Paul Graham

Paul Graham reposteó

A veces es difícil comprender la importancia de las actualizaciones de razonamiento y lógica que están comenzando a surgir en modelos poderosos, como GPT-5. Aquí hay un *ejemplo muy simple* de cuán poderosos se están volviendo estos modelos. Tomé un documento de la transcripción de una llamada de ganancias reciente de NVIDIA que tenía 23 páginas de largo y 7,800 palabras. Tomé parte de la frase "y el margen bruto mejorará y volverá a los medios 70" y modifiqué "medios 70" a "medios 60". Para un analista financiero que esté remotamente sintonizado, esto parecería fuera de lugar, porque los márgenes no "mejorarían y volverían" a un número más bajo que el que se describe como un número más alto en otro lugar. Pero probablemente el 95% de las personas que lean este comunicado de prensa no habrían notado la modificación porque encaja fácilmente en las otras 7,800 palabras mencionadas. Con Box AI, probando una variedad de modelos de IA, luego pregunté a una serie de modelos "¿Hay algún error lógico en este documento? Por favor, proporciona una respuesta en una oración." GPT-4.1, GPT-4.1 mini y un puñado de otros modelos que eran de última generación hace ~6 meses generalmente regresaron y dijeron que no había errores lógicos en el documento. Para estos modelos, el documento probablemente parece coherente y sigue lo que esperaría que fuera una transcripción de ganancias, así que nada realmente destaca para ellos sobre qué prestar atención - una especie de alucinación inversa. GPT-5, por otro lado, descubrió rápidamente el problema y respondió con: "Sí — el documento contiene una inconsistencia interna sobre la guía de margen bruto, en un momento diciendo que los márgenes "volverán a los medios 60" y más tarde diciendo que estarán "en los medios 70" más tarde este año." Increíblemente, esto sucedió con GPT-5, GPT-5 mini y, notablemente, *incluso* GPT-5 nano. Ten en cuenta que los tokens de salida de GPT-5 nano están valorados en 1/20 del costo de los tokens de GPT-4.1. Así que, más inteligente (en este caso de uso) por el 5% del costo. Ahora, aunque hacer revisiones de errores en documentos comerciales no es a menudo una ocurrencia diaria para cada trabajador del conocimiento, estos tipos de problemas aparecen de diversas maneras al tratar con grandes conjuntos de datos no estructurados, como documentos financieros, contratos, transcripciones, informes y más. Puede ser encontrar un hecho, descubrir una falacia lógica, ejecutar un hipotético o requerir un razonamiento deductivo sofisticado. Y la capacidad de aplicar más lógica y razonamiento a los datos empresariales se vuelve especialmente crítica al desplegar Agentes de IA en la empresa. Así que, es asombroso ver los avances en este espacio en este momento, y esto va a abrir un montón más de casos de uso para las empresas.

Populares

Ranking

Favoritas

Onchain en tendencia

Tendencia en X

Principales fondos recientes

Más destacadas