Claude's Constitution: Když AI píše pravidla pro AI

Claude’s Constitution: Když AI píše pravidla pro AI

Anthropic včera zveřejnil Claude’s Constitution – dokument popisující hodnoty a pravidla chování pro AI modely z modelové rodiny Claude (pod CC0 licencí).

Co mě zaujalo? 🧐

Dokument je psaný pro AI, nikoliv lidi, je tak optimalizován pro přesnost, nikoliv srozumitelnost. Používá pojmy jako „ctnost" a „moudrost", protože AI při svém rozhodování právě z lidských konceptů vychází (lidské texty = trénovací data).

Dokument regulující chování AI byl částečně napsán samotnou AI. V knize Trestní odpovědnost umělé inteligence jsem mj. psal, že by AI „v dlouhodobém horizontu mohla být i tvůrcem svého vlastního normativního systému.“

Dokument stanovuje hierarchii priorit: broadly safe → broadly ethical → compliant with Anthropic’s guidelines → genuinely helpful. AI má dokonce odmítnout i pokyny vlastní společnosti, pokud by vedly k neetickému jednání.

Dokument řeší i tzv. zneužívání kreativních úkolů (když pachatelé maskují škodlivé požadavky jako fikci, poezii nebo umění). AI má proto vážit hodnotu tvůrčí práce proti riziku zneužití. Problém, o kterém jsem v knize také psal.

Zůstává však otázka, zda a jak se tím změní odpovědnost – vývojářů, provozovatelů, uživatelů a v budoucnu i AI…více v navazujících příspěvcích!