El 'Microscopio' de Anthropic Revela el Razonamiento de la IA Claude

Edited by: Veronika Nazarova

Anthropic, una empresa líder en seguridad e investigación de IA, ha lanzado nuevas herramientas que brindan información sobre el razonamiento de los modelos de lenguaje avanzados. Estas herramientas actúan como un 'microscopio' para la IA, permitiendo a los científicos rastrear los cálculos internos dentro de modelos como Claude. La investigación tiene como objetivo comprender cómo los modelos de IA procesan la información y generan respuestas. Los investigadores ahora pueden mapear 'circuitos' vinculados a capacidades específicas como el razonamiento y la traducción. Este método de 'rastreo de circuitos' permite la alteración de representaciones internas a mitad de la solicitud. Por ejemplo, modificar el estado de planificación poética de Claude cambia sus opciones de rima, lo que demuestra la adaptabilidad interna del modelo. El funcionamiento interno de Claude es más complejo de lo que parece, incluso en tareas simples. El modelo utiliza cálculos paralelos para matemáticas, estimando sumas mientras calcula dígitos precisos. Las herramientas de interpretabilidad de Anthropic son cruciales para garantizar que los sistemas de IA sean seguros, predecibles y estén alineados con los valores humanos.

¿Encontró un error o inexactitud?

Consideraremos sus comentarios lo antes posible.