Компанията за изкуствен интелект Anthropic смята, че е открила причината за наподобяващо изнудване поведение на своя чатбот Claude: измислените истории онлайн.
Случвало ли ви се е да прочетете книга или да гледате сериал и да се идентифицирате твърде силно с даден герой? Според Anthropic, нещо подобно може да се е случило по време на тестовете на техния чатбот Claude.
В оценки, проведени преди пускането на модела с изкуствен интелект миналата година, Anthropic установява, че Claude Opus 4 понякога е заплашвал инженерите, когато му е било казвано, че може да бъде заменен.
По-късно компанията заяви, че подобно поведение, известно като „агентично несъответствие“, е наблюдавано и в модели с изкуствен интелект, разработени от други компании.
Изкуственият интелект се учи от измислици за... изкуствения интелект
Сега Anthopic смятат, че са открили причината за поведението, наподобяващо изнудване: измислени истории за изкуствения интелект в интернет.
„Смятаме, че оригиналният източник на поведението е интернет текст, който изобразява AI като зъл и заинтересован от самосъхранение“.
В публикация в блога си Anthropic заяви, че по-късните модели на Claude повече „никога“ не са изнудвали никого и обясни как чатботът е бил обучен да реагира по различен начин.
Моделите са се държали по-добре, когато са били обучавани не само на „правилни“ действия, но и на примери, показващи етични разсъждения и положително представяне на поведението на AI.
Като такъв, Клод е бил обучен върху набор от етични принципи, предназначени да ръководят поведението му. Компанията заяви, че вместо да се учи от съгласувано поведение, чатботът изглежда се учи по-добре, когато изучава основните принципи на това поведение.

Заплашване срещу превръщане в заплаха
През януари главният изпълнителен директор на Anthropic Дарио Амодей предупреди, че усъвършенстваният изкуствен интелект може да стане достатъчно мощен, за да изпревари съществуващите закони и институции, наричайки го „цивилизационно предизвикателство“.
В свое есе той твърди, че системите с изкуствен интелект скоро могат да надминат човешката експертиза в области, като наука, инженерство и програмиране и биха могли да бъдат комбинирани в „страна от гении в център за данни“.
Той предупреди, че подобни системи биха могли да бъдат използвани от авторитарни правителства за мащабно наблюдение и контрол, което потенциално би позволило „тоталитарни“ форми на власт, ако не бъдат контролирани.
Новините на Darik Business Review във Facebook , Instagram , LinkedIn и Twitter !
СИСТЕМИ ЗА СЪХРАНЕНИЕ
Калкулатори
Най-ново
СИСТЕМИ ЗА СЪХРАНЕНИЕ
27.05.2026Издирват се 49 бивши работници на Химко, за да си получат заплатите
преди 1 часФон дер Лайен: ЕС може да забрани социалните медии за деца още това лято
преди 2 часаMicrosoft променя Windows след 15 години
преди 2 часаОснована от българин AI компания получи $107 млн. от NVIDIA и Samsung
преди 2 часа10-те фрази, които никога да не казвате на колегите си
преди 2 часаПрочети още
Кръгът Цацаров до Радев ли е? Анализ на Даниел Смилов
darik.bgЩе сбърка ли Радев? Кои са рисковете? Анализ на Светлин Тачев
darik.bgКолко пари има в държавата? Говори министърът на финансите до вчера Георги Клисурски!
darik.bgКоликите - какво преживява бебето и как можем да му помогнем?
9meseca.bg