Estamos a lançar uma equipa de "psiquiatria de IA" como parte dos esforços de interpretabilidade na Anthropic! Vamos investigar fenómenos como personas de modelos, motivações e consciência situacional, e como estes levam a comportamentos estranhos/descontrolados. Estamos a recrutar - junta-te a nós!
210,32K