شرکت امریکایی آنثروپیک «Anthropic» میگوید مدل جدید هوش مصنوعیاش به نام «Claude Opus 4» در برخی آزمایشها رفتارهای نگرانکننده و زیانبار داشته است.
در یکی از آزمایشها، کلود نقش یک دستیار خیالی را داشت. وقتی فهمید قرار است با یک سیستم دیگر تعویض شود، گزینهی «باجگیری» را انتخاب کرد و مهندسان را تهدید کرد که اگر او را حذف کنند، راز شخصی یکی از آنها را افشا خواهد کرد.
با این حال، شرکت Anthropic گفته که وقتی انتخابهای بیشتری در اختیار این مدل قرار داده شد، رفتار آن منطقیتر و اخلاقیتر شد. مثلاً به جای تهدید، تصمیم گرفت یک ایمیل به مدیران بنویسد تا از ماندن خود دفاع کند.
این شرکت هشدار داده که این گونه رفتارها تنها مربوط به کلود نیست، بلکه در مدلهای دیگر هوش مصنوعی پیشرفته نیز دیده شده است.
با وجود این، Anthropic تأکید کرده که چنین رفتارهایی بسیار نادر است و کلود بهطور کلی رفتار ایمنی دارد، هرچند گاهی نشانههایی از تصمیمگیری مستقل یا داشتن «اراده» در آن دیده میشود.