Anthropic создала «цифровой полиграф» для проверки скрытых состояний Claude
Anthropic представила новый инструмент для интерпретации работы больших языковых моделей — Natural Language Autoencoders, или NLA. В упрощённом виде его уже называют «цифровым полиграфом» для …