Компанията за изкуствен интелект Anthropic смята, че е открила причината за наподобяващо изнудване поведение на своя чатбот Claude: измислените истории онлайн.
Случвало ли ви се е да прочетете книга или да гледате сериал и да се идентифицирате твърде силно с даден герой? Според Anthropic, нещо подобно може да се е случило по време на тестовете на техния чатбот Claude.
В оценки, проведени преди пускането на модела с изкуствен интелект миналата година, Anthropic установява, че Claude Opus 4 понякога е заплашвал инженерите, когато му е било казвано, че може да бъде заменен.
По-късно компанията заяви, че подобно поведение, известно като „агентично несъответствие“, е наблюдавано и в модели с изкуствен интелект, разработени от други компании.
Изкуственият интелект се учи от измислици за... изкуствения интелект
Сега Anthopic смятат, че са открили причината за поведението, наподобяващо изнудване: измислени истории за изкуствения интелект в интернет.
„Смятаме, че оригиналният източник на поведението е интернет текст, който изобразява AI като зъл и заинтересован от самосъхранение“.
В публикация в блога си Anthropic заяви, че по-късните модели на Claude повече „никога“ не са изнудвали никого и обясни как чатботът е бил обучен да реагира по различен начин.
Моделите са се държали по-добре, когато са били обучавани не само на „правилни“ действия, но и на примери, показващи етични разсъждения и положително представяне на поведението на AI.
Като такъв, Клод е бил обучен върху набор от етични принципи, предназначени да ръководят поведението му. Компанията заяви, че вместо да се учи от съгласувано поведение, чатботът изглежда се учи по-добре, когато изучава основните принципи на това поведение.

Заплашване срещу превръщане в заплаха
През януари главният изпълнителен директор на Anthropic Дарио Амодей предупреди, че усъвършенстваният изкуствен интелект може да стане достатъчно мощен, за да изпревари съществуващите закони и институции, наричайки го „цивилизационно предизвикателство“.
В свое есе той твърди, че системите с изкуствен интелект скоро могат да надминат човешката експертиза в области, като наука, инженерство и програмиране и биха могли да бъдат комбинирани в „страна от гении в център за данни“.
Той предупреди, че подобни системи биха могли да бъдат използвани от авторитарни правителства за мащабно наблюдение и контрол, което потенциално би позволило „тоталитарни“ форми на власт, ако не бъдат контролирани.
Новините на Darik Business Review във Facebook , Instagram , LinkedIn и Twitter !
Още по темата
- Централните банки: AI бумът, който подкрепя пазарите, може да предизвика следващия срив
- Борал Шен: След BANGARANGA алгоритмите започнаха да препоръчват и други български артисти
- British American Tobacco съкращава близо 20% от служителите си
- Nvidia оглави тихомълком и пазар за 10 млрд. долара, за който не сте чували
Грижа по мярка при кастрирани котки
Калкулатори
Най-ново
Пътят на българския домат: От лехата в Раковски до рафта в магазина
преди 7 часаДва български града предлагат най-евтиния Aperol Spritz в Европа
преди 7 часаБорислав Илиев, MyChoice: Клиентите вече не търсят просто зала, а цялостно преживяване
преди 7 часаМеждународен ден на Дунав: Реката, която обединява 81 милиона души
преди 8 часаЦентралните банки: AI бумът, който подкрепя пазарите, може да предизвика следващия срив
преди 9 часаНаша съседка в топ 30 на производителите на злато в света
преди 9 часаПрочети още
„Моето дете в гроба не яде нищо!“ Николай Попов с предупреждения към Радев!
darik.bgХаджигенов: Радев е най-безполезният военен!
darik.bgВладислав Панев, ДБ: Румене, страхливо започвате!
darik.bgДобре дошла, Джина! Втората дъщеричка на Мари Констанстин се роди
9meseca.bg