Prevence katastrofy spojené s umělou inteligencí

AI může být velkým přínosem – pokud se vyhneme rizikům

Původně vyšlo jako Preventing catastrophic pandemics na 80 000 Hours · Autoři: Benjamin Hilton a tým 80,000 Hours · Původně publikováno v srpnu 2022, aktualizováno 24. 3. 2025.

Proč není osud světa v rukou šimpanzů, nýbrž lidí?

Lidé přetvořili každý kout naší planety. Šimpanzi, přestože jsou v porovnání s ostatními mimolidskými zvířaty velmi chytří, nikoli.

Důvodem je (víceméně) lidská inteligence.

Společnosti a vlády ovšem vynakládají ročně miliardy dolarů na vývoj systémů AI – jejichž pokrok by mohl vést k tomu, že tyto systémy (nakonec) lidi coby nejinteligentnější entity na Zemi nahradí. Jak uvidíme dál, zdokonalují se. Rychle.

Za jak dlouho vznikne umělá inteligence, která lidi předčí ve většině dovedností, je předmětem živé diskuse. Podle všeho je ale možné – a my předpokládáme – že k tomu dojde v tomto století.

Tento poznatek není přesvědčivým nebo nezvratným důkazem toho, že umělá inteligence bude představovat velký problém nebo že je hrozbou pro lidstvo. Těmto argumentům se mnohem podrobněji budeme věnovat dále.

Nejspíš je ale vhodné říct, že možnost vzniku konkurenční inteligence na Zemi v blízké budoucnosti by měla být přinejmenším důvodem k obavám.

Budou systémy, které vyvineme, mít cíle? A pokud ano, jaké?

Budou podporovat snahy lidstva konat dobro? Nebo hrozí, že ztratíme kontrolu nad vlastní budoucností, čímž lidský příběh v podstatě skončí?

Upřímná odpověď na tyto otázky je, že nevíme.

Neměli bychom ale jen tak čekat, sledovat to zpovzdálí a doufat. Umělá inteligence by mohla všechno od základů proměnit – takže usilovat o usměrnění jejího rozvoje je možná to nejdůležitější, co můžeme dělat.

Proč jsme toho názoru, že snižování rizik AI je jedním z nejnaléhavějších témat dneška? Stručně řečeno nás k tomu vedou následující důvody:

Důvody k obavám vidíme, ještě než se dostaneme ke skutečným argumentům – mnoho odborníků a odbornic na AI má za to, že existuje malá, ale nezanedbatelná pravděpodobnost, že AI v důsledku způsobí až vyhynutí lidstva.
Pokroky v AI děláme nesmírně rychle – z čehož lze soudit, že tyto systémy budou mít brzy značný vliv na společnost.
Existují přesvědčivé argumenty, že AI „usilující o moc“ by mohla pro lidstvo představovat existenční riziko – čemuž se budeme věnovat níže.
I když přijdeme na to, jak usilování o moc zabránit, stále existují i další rizika.
Jsme toho názoru, že tato rizika jsou řešitelná.
Této práci se nevěnuje dostatečná pozornost.

Postupně všechny tyto důvody projdeme a vysvětlíme, co konkrétně lze dělat.

1. Podle mnoha odborníků na AI existuje nezanedbatelná pravděpodobnost, že AI přivodí až vyhynutí lidstva

V květnu 2023 podepsaly stovky předních vědců a vědkyň v oblasti AI – a dalších významných osobností – prohlášení, že zmírňování rizika vyhynutí způsobeného AI by mělo být světovou prioritou.

Je tudíž celkem zjevné, že přinejmenším někteří z nich mají obavy. Jak velké tyto obavy ale jsou? A nejde jen o okrajový názor?

Podívali jsme se na čtyři průzkumy mezi badatelkami a badateli v oblasti AI, kteří publikovali na konferencích NeurIPS a ICML (dvou z nejprestižnějších konferencí o strojovém učení) v letech 2016, 2019, 2022 a 2023.

Je třeba vzít v úvahu, že takové průzkumy by mohly trpět značným výběrovým zkreslením. Může vás například napadnout, že vědci, kteří se účastní nejvýznamnějších konferencí o AI, pravděpodobně AI vnímají optimisticky, protože tímto výběrem prošli takoví, podle kterých výzkum AI míří dobrým směrem. Nebo si řeknete, že výzkumu týkajícího se obav z AI se pravděpodobněji zúčastní ti, kdo nějaké obavy mají.

Došli jsme však k těmto zjištěním:

Pravděpodobnost, že AI bude „extrémně dobrá“ byla ve všech čtyřech průzkumech podle mediánového vědce poměrně vysoká: v průzkumu v roce 2016 20 %, v roce 2019 20 %, v roce 2022 10 % a v roce 2023 10 %.

Systémy AI skutečně už přinesly mnoho dobrého – například ve zdravotnictví nebo ve vědeckém výzkumu.

Mediánový vědec ale také ve všech čtyřech průzkumech předpokládal malou – ale rozhodně ne zanedbatelnou – pravděpodobnost, že AI bude „velmi špatná (např. vyhynutí lidstva)“. Pravděpodobnost velmi negativních dopadů byla v průzkumu v roce 2016 5 %, v roce 2019 2 %, v roce 2022 5 % a v roce 2023 5 %.

V roce 2022 byli účastníci a účastnice přímo dotázáni na pravděpodobnost existenční katastrofy způsobené pokrokem AI v budoucnu – a více než polovina opět byla toho názoru, že pravděpodobnost takové pohromy je přes 5 %.

Na míře, v jaké AI představuje existenční riziko, se odborníci tudíž neshodnou. Přitom jde o takové riziko, že by podle nás mělo mít velký morální význam.

To odpovídá i situaci, která podle našich informací panuje v oboru. Tři přední společnosti zabývající se vývojem AI – DeepMind, Anthropic a OpenAI – mají týmy, jejichž úkolem je přicházet s řešením technických bezpečnostních problémů, které by podle nás z důvodů, jimž jsme se podrobně věnovali výše, mohly existenční riziko pro lidstvo představovat.

Týmiž problémy se zabývá také několik vědeckých výzkumných skupin (například na MIT, Univerzitě v Cambridgi, Univerzitě Carnegieho–Mellonových a na Kalifornské univerzitě v Berkeley).

Těžko přesně říct, co si z toho odnést. Jsme si ale jistí, že názor, podle kterého existuje podstatné riziko až existenční katastrofy, není v oboru okrajový. Podle některých odborníků z oboru se toto riziko ovšem přehání.

Proč jsme tedy na straně těch opatrnějších? Důvodem je stručně řečeno existence argumentů, podle nás přesvědčivých, že by AI takové riziko představovat mohla. Tyto argumenty si podrobně rozebereme dále.

Je důležité pochopit, že pokud podle mnohých odborníků existuje nějaký problém, pak nelze říct, že to přece odborníci mají pod kontrolou, takže je všechno v pořádku. Jsme obecně toho názoru, že tento problém je stále velmi opomíjený (podrobnosti viz níže), především s ohledem na to, že do rozvoje AI se investují miliardy dolarů.

2. K pokroku v AI dochází nesmírně rychle

„Kočka oblečená jako programátor“ vygenerovaná nástroji Craiyon (dříve DALL-E mini) (vlevo nahoře), DALL-E 2 od OpenAI (vpravo nahoře) a Midjourney V6. Model DALL-E mini je 27násobně menší než DALL-E 1 od OpenAI, který vyšel v lednu 2021. DALL-E 2 byl zveřejněn v dubnu 2023. Společnost Midjourney spustila 6. verzi svého modelu v prosinci 2023.

Mezi moderní techniky AI patří strojové učení (machine learning, ML): modely se díky zadávání dat automaticky zdokonalují. Nejběžnější v současnosti využívaná forma této techniky se nazývá hluboké učení.

Po vydání nástroje ChatGPT v listopadu 2022 si mnozí uvědomili, že hluboké učení představuje v oblasti AI převratnou změnu. Od té doby se velké jazykové modely, obrazové modely a další systémy AI rychle dál rozvíjejí a přitahují rozsáhlé investice.

Protože se zlepšují tak rychle, pro veřejnost může být náročné zůstávat v obraze. Pokud plně nepoužíváte nejnovější modely, možná máte zastaralou představu o tom, co všechno moderní systémy AI dokážou.

Neměli bychom ale uvažovat jen o tom, co dokážou dnes. Je nutné vzít v úvahu, jak se dosud zlepšovaly a jak se pravděpodobně zlepší v budoucnu.

Posuďte například, jak rychle se jazykové modely zdokonalují v testu GPQA, kde dostávají náročné úlohy z chemie, fyziky a biologie na doktorandské úrovni:

Úctyhodných pokroků dosahují také v oblasti softwarového inženýrství nebo pokročilých matematických úloh.

Dále najdete příklady dalších působivých výsledků, kterých systémy dosahují v březnu 2025:

Používání počítačů: Modelům AI firem Anthropic a OpenAI lze zadat, aby nezávisle vykonávaly úkoly na vašem počítači. Tyto schopnosti jsou zatím primitivní, ale očekáváme, že se rychle zlepší.
Účast v matematických soutěžích: Divize Googlu DeepMind dosáhla kombinací modelů AlphaProof a AlphaGeometry 2 výsledků na úrovni druhého místa v Mezinárodní matematické olympiádě.
Kombinace více dovedností podobných lidským: Modely jsou stále více multimodální. To znamená, že kombinují dovednosti psaní a čtení textu, porozumění a tvorby obrázků, porozumění mluvenému jazyku a reakce na něj.
Prognóza komplexních biomolekulárních struktur a interakcí: Model AlphaFold 3 divize Google DeepMind, nástupce systému, který přispěl k získání Nobelovy ceny, dokáže odhadnout, jak budou proteiny interagovat s DNA, RNA a dalšími strukturami na molekulární úrovni.
Zlepšování v robotice: Model Gemini Robotics vyvíjený Google DeepMind využívá jazykový model k ovládání robotů. Ti tak dokážou reagovat na slovní pokyny, prokazují schopnost orientovat se v prostoru a plní řadu fyzických úkolů.
Autonomní vozidla: Samořízená auta společnosti Waymo podle zpráv z března 2025 údajně podniknou ve velkých městech USA 150 tisíc cest týdně, což je třikrát více než před pouhými pár měsíci. Firma se chystá rozrůstat dál.
Tvorba původních videí a obrázků: Obrazové modely jsou dnes schopné generovat kvalitní obrázky z písemných popisů a videomodely jako například Sora nebo Veo dokonce dokážou na základě textových promptů vytvářet pozoruhodné krátké klipy.
Pomoc při lékařské, právní a vědecké práci: Badatelé a badatelky se setkali s tím, že systémy AI dokážou určovat diagnózy pacientů lépe než lékaři, významně zlepšovat produktivitu právníků a předpovídat neurovědecké objevy.
Pomoc s výzkumem AI: Existují také doklady o tom, že v určeném čase dvou hodin překonaly systémy AI lidi v úkolech souvisejících s výzkumem a vývojem AI.

Pokud to vidíte jako my, složitost a šíře činností, kterých jsou tyto systémy schopny, vám jistě přijde překvapivá.

Jestliže se tato technologie bude stejným tempem rozvíjet dále, je jasné, že bude mít významné dopady na společnost. Automatizací činností se přinejmenším zlevní jejich provádění. Výsledkem může být rychlé zvýšení hospodářského růstu (možná až na úroveň průmyslové revoluce).

A když dokážeme částečně nebo plně zautomatizovat vědecký pokrok, možná to ve společnosti a technologiích povede k ještě zásadnějším změnám.

To přitom může být jen začátek. Nakonec možná zajistíme, že počítače zautomatizují vše, co dokážou lidé. Zdá se, že to musí být možné – přinejmenším teoreticky. Důvodem je, že počítač by pravděpodobně měl být schopen napodobit lidský mozek, pokud bude mít k dispozici dostatek energie a bude dostatečně složitý. Už to by mohl být jeden ze způsobů (ne-li ten nejúčinnější), jak automatizovat veškeré lidské činnosti.

A jak uvidíme v další kapitole, objevují se známky toho, že rozsáhlé automatizace lze dosáhnout zintenzivněním stávajících metod.

Současné trendy svědčí o rychlém pokroku schopností systémů ML

Pro budování AI strojovým učením jsou klíčové tři prvky:

Správné algoritmy (lepší jsou např. efektivnější algoritmy)
Data na trénink algoritmu
Dostatečný výpočetní výkon na tento trénink

Vědecká skupina Epoch zkoumá trendy ve vývoji pokročilé AI, a zejména jak se tyto tři vstupy průběžně mění.

Objem výpočetního výkonu používaného na trénování největších modelů AI podle jejího zjištění roste exponenciálně – od roku 2010 se zdvojnásobí v průměru každých šest měsíců.

To znamená, že množství výpočetního výkonu používaného na trénink největších modelů strojového učení se zvýšilo víc než miliardkrát.

Vědci z Epoch také zkoumali na datasetu ImageNet (známý dataset na trénování počítačového vidění), kolik výpočetního výkonu je potřeba k vytrénování neuronové sítě na danou výkonnost.

Zjistili, že množství výpočetního výkonu nutného pro získání stejné výkonnosti exponenciálně klesá – každých 10 měsíců o polovinu.

Toto množství výpočetního výkonu se tudíž snížilo více než 10 000krát. V kombinaci se zvýšením výpočetního výkonu využívaného k tréninku to představuje velký pokrok.

Dalším zjištěním bylo, že velikost dat využívaných na trénink největších jazykových modelů se od roku 2010 zdvojnásobuje přibližně jednou za rok. Podle skupiny Epoch je proveditelné zachovat dosavadní tempo trénování nejmodernější AI nejméně do roku 2030.

Nelze s jistotou říct, že i schopnosti AI nadále porostou, ale trend naznačuje, že strojové učení povede k ohromným pokrokům.

Popravdě se zdá, že zvětšování modelů (a nárůst výpočetního výkonu na jejich trénink) vede k čím dál složitějšímu chování. Proto systémy jako například GPT-4 vykonávají i činnosti, ke kterým nebyly přímo vytrénovány.

Z těchto pozorování vyplynula škálovací hypotéza, podle níž zkrátka můžeme vytvářet čím dál tím větší neuronové sítě, a tudíž budeme mít stále silnější umělou inteligenci. Tento trend zvyšujících se schopností může vést k tomu, že se AI dostane na lidskou úroveň a dál.

Pokud tomu tak je, můžeme míru růstu schopností AI v čase odhadnout jednoduše z rychlosti, jakou zvyšujeme množství výpočetního výkonu na trénink modelů.

Koncem roku 2024 jsme také začali pozorovat nový směr škálování zaměřený na výpočetní výkon během inference, tedy například když jazykový model odpovídá na otázky.

Přední firmy zjistily, že když se modelu dá víc času na „promýšlení“ odpovědí, procházení jednotlivých možností a jejich výběr, výsledek je mnohem lepší. Firmy zabývající se AI přišly díky této inovaci na další způsob, jak modely ještě více zdokonalit.

Jak uvidíme v následující kapitole, poměrně brzkému vzniku nesmírně výkonné umělé inteligence nenasvědčuje jen škálovací hypotéza. Ke stejným závěrům lze dojít i dalšími metodami předvídání pokroku AI.

Kdy máme očekávat transformativní AI?

Kdy vyvineme AI, která dost možná přinese zásadní společenský zlom (ať v dobrém, nebo ve zlém) – např. automatizaci veškeré lidské práce nebo zásadní změnu uspořádání lidské společnosti – lze těžko přesně předvídat.

Na začátku roku 2025 se ale hlavy některých průkopnických firem v oboru jasně vyjádřily, že velmi mocné systémy AI očekávají brzy.

Ředitel Open AI Sam Altman, ředitel společnosti Anthropic Dario Amodei i ředitel Google DeepMind Demis Hasabis uvedli, že AI, která dokáže plně nahradit přinejmenším některé formy lidské práce, budou nejspíš mít do pár let nebo i dříve.

Sam Altman v lednu 2025 napsal:

V tuto chvíli jsme přesvědčeni, že víme, jak vytvořit obecnou AI v tradičním slova smyslu. V roce 2025 se podle našeho názoru do pracovního procesu „zapojí“ první AI agenti a zásadně promění výsledky firem.

Demis Hassabis v lednu 2025 prohlásil:

Obecnou AI dlouhodobě chápeme jako systém schopný projevovat všechny kognitivní schopnosti, které mají lidé. Máme za to, že se tomu neustále přibližujeme, ale myslím, že to ještě bude trvat několik let.

A Dario Amodei napsal v únoru 2025:

Čas se krátí a my musíme jednat rychleji, abychom drželi krok se zrychlujícími se pokroky AI. Možná do roku 2026 nebo 2027 (a téměř jistě nejpozději v roce 2030) povedou schopnosti systémů AI k tak převratným hospodářským, společenským a bezpečnostním důsledkům, jako kdyby se na světové scéně objevil zcela nový stát plný vysoce inteligentních lidí – „stát géniů v datovém centru“.

K těmto předpovědím je rozumné přistupovat s určitou skepsí.

Závěr, že jsou transformativní systémy AI blíž, než by si mnozí mohli myslet, však vyplývá i z dalších přístupů k odhadování nástupu této technologie:

Z výsledků průzkumu mezi 3000 odborníky a odbornicemi na AI z roku 2023 vychází, že pravděpodobnost vzniku strojové inteligence lidské úrovně (kterou lze v tomto smyslu považovat za transformativní) do roku 2036 je 33 %, do roku 2047 50 % a do roku 2100 80 %. U těchto odhadů je mnoho důvodů k pochybnostem, ale je to pro nás jeden z údajů, které bereme v potaz.
Ajeya Cotra (vědkyně z organizace Open Philantrophy) využila k predikci transformativní AI srovnání současného hlubokého učení s lidským mozkem. Než je model využívající hluboké učení schopen nějakého úkonu, jeho trénink vyžaduje ohromné množství výpočetního výkonu. Existuje také vztah mezi množstvím výkonu využitém při tréninku a tím, jaké množství model pak využívá při práci. A pokud platí škálovací hypotéza, lze předpokládat, že výkonnost modelu bude se zvyšováním množství využitého výpočetního výkonu růst podle očekávání. Cotra se tedy za použití řady metod (včetně např. odhadu, kolik výkonu využívá k různým činnostem lidský mozek) pokusila odhadnout, kolik by ho bylo třeba na vytrénování modelu schopného vykonávat ty nejtěžší operace, které zvládají lidé. Následně odhadla, jestli by využití takového výpočetního výkonu bylo finančně dostupné.

V revizi výsledků zprávy z roku 2022 Cotra odhaduje, že pravděpodobnost transformativní AI do roku 2036 je 35 %, do roku 2040 50 % a do roku 2050 60 % – přičemž uvádí, že tyto odhady kolísají.

Tom Davidson (také výzkumník z Open Philantrophy) sepsal zprávu doplňující práci Cotry. Vznik transformativní AI se pokusil odhadnout jen na základě jejího srovnání s jinými podobnými typy výzkumu (např. vývoj technologie, která byla hlavním cílem některého z vědeckotechnických oborů, nebo prokázání složitých matematických hypotéz). Zjišťoval, jak dlouho takovéto výzkumy trvaly v minulosti s ohledem na objem financování a úsilí.

Davidson pouze na základě této informace odhaduje pravděpodobnost vzniku transformativní AI do roku 2036 na 8 %, do roku 2060 na 13 % a do roku 2100 na 20 %. Nebere však v úvahu reálný pokrok AI od začátku jejího výzkumu v 50. letech a uvádí, že množství úsilí vloženého do tohoto výzkumu bude pravděpodobně stoupat s tím, čím důležitější AI bude pro ekonomiku. Předpokládá proto, že tyto výsledky jsou podhodnocené.

O shrnutí výsledků prognóz ostatních se pokusil Holden Karnofsky. Podle jeho odhadu z roku 2021 je pravděpodobnost vzniku transformativní AI do roku 2036 víc než 10 %, do roku 2060 50 % a do roku 2100 66 %.

Metoda	Pravděpodobnost transformativní AI do roku 2036	Pravděpodobnost transformativní AI do roku 2060	Pravděpodobnost transformativní AI do roku 2100
Průzkum mezi odborníky (Grace et al., 2024)	33 %	50 % (do roku 2047)	80 %
Průzkum mezi odborníky (Zhang et al., 2022)	20 %	50 %	85 %
Biologické referenční body (Cotra, 2022)	35 %	60 % (do roku 2050)	80 % (podle zprávy z roku 2020)
Částečně informativní priory (Davidson, 2021)	8 %	13 %	20 %
Celkový odhad (Karnofsky, 2021)	10 %	50 %	66 %

Obecně vzato se zdá, že pokrok AI je rychlý. Do odvětví proudí každoročně víc a víc peněz a talentů, modely se zvětšují a jsou čím dál účinnější a přicházíme na nové způsoby zlepšování jejich schopností.

AI by nás ale znepokojovala, i kdyby se rozvíjela pomaleji – většina argumentů týkajících se rizik této technologie (dostaneme se k nim níže) na tomto rychlém pokroku nestojí. Je také možné, že než se AI stane skutečně transformativní, probíhající pokrok ustane.

Rychlost současného vývoje nicméně umocňuje naléhavost problému. Všechny odhady uvedené v tabulce výše navíc vznikly před mnoha působivými pokroky v roce 2024 a na začátku roku 2025, a možná nám tedy dávají dokonce více času, než máme.

Jak jsme uvedli v jiném článku, považujeme ve skutečnosti za pravděpodobné, že nesmírně mocné systémy AI schopné nahradit značnou část lidské práce vzniknou před rokem 2030. A stojí za to podle toho jednat.

3. AI usilující o moc by mohla představovat existenční riziko pro lidstvo

Zatím jsme tvrdili, že podle našich očekávání bude mít AI jako nová technologie zásadní – a možná transformativní – význam.

Zabývali jsme se také tím, proč si myslíme, že transformativní systémy AI mohou vzniknout v blízké budoucnosti.

Teď se zaměříme na klíčovou otázku, proč je to podle nás tak důležité.

Důvodů by mohla být řada. Pokud bude pokročilá AI tak transformativní, jak se zdá, bude to mít mnoho zásadních důsledků. Tady ale vyložíme problém, který podle nás budí největší obavy: systémy AI by mohly představovat riziko tím, že budou usilovat o moc a získávat ji.

Dokážeme následující tvrzení:

Pravděpodobně vytvoříme systémy AI, které budou schopny pro dosahování cílů plánovat a tyto plány uskutečňovat.
Snadno může dojít k tomu, že systémy schopné pokročilého plánování nebudou vsouladu s lidskými hodnotami, což je může vést k vytváření plánů zahrnujících zbavení lidstva moci.
Pokud by nás systémy AI zbavily moci, šlo by o existenční katastrofu.
Lidé mohou systémy AI s hodnotami nesladěnými s lidskými uvést do provozu navzdory tomuto riziku.

Při zvážení všech těchto kroků jsem toho názoru, že pravděpodobnost existenční katastrofy způsobené systémy AI usilujícími o moc v tomto století je přibližně 1 %. Jde o můj odhad rizika s ohledem na všechny okolnosti. Beru v potaz jak argument ve prospěch tohoto rizika (ten je založený na pravděpodobnosti) i důvody, proč by mohl být neplatný. Řadím se tak mezi ty méně znepokojené členy týmu 80,000 Hours – při nejnovějším průzkumu se naše odhady pohybovaly v rozmezí 1–55 %, přičemž medián byl 15 %.

1. Je pravděpodobné, že vyvineme systémy schopné pokročilého plánování

Tvrdíme, že zvlášť významné nebezpečí pro lidstvo by mohly v budoucnu představovat systémy s těmito třemi vlastnostmi:

1. Mají cíle a dokážou dobře plánovat.
- Cíle a schopnost vytvářet plány na jejich dosažení nemají všechny systémy AI. Některé (například ty na hraní šachů) by se tak ovšem popsat daly. Když mluvíme o systémech usilujících o moc, máme na mysli plánující systémy, které jsou poměrně vyspělé, mají plány za účelem dosažení cíle (či cílů) a dokážou tyto plány uskutečňovat.
2. Mají skvělé strategické povědomí.
- Zvlášť dobrý plánovací systém by rozuměl světu dostatečně na to, aby zaznamenal překážky a příležitosti, které mohou s plánem pomoct nebo mu stát v cestě, a podle toho na ně reagovat. Budeme tomu říkat strategické povědomí, jak to nazval Carlsmith, protože to systémům umožňuje vytvářet složitější strategie.
3. Ve srovnání s dnešními systémy mají velmi pokročilé schopnosti.
- Aby tyto systémy mohly ovlivnit svět, musely by plány nejen vytvářet, ale také dobře ovládat konkrétní činnosti nutné k jejich provádění.
- Protože se obáváme toho, že se systémy budou snažit zbavit lidstvo moci, znepokojují nás obzvlášť takové systémy, které by lidi překonávaly v činnosti nebo činnostech, které lidem v dnešním světě při správném vykonávání přinášejí značnou moc.
- Získat moc obvykle například dokážou lidé velmi zdatní v přesvědčování a/nebo manipulaci – tudíž AI, která by dobře ovládala tyto činnosti, by ji dokázala získat také. Mezi další příklady patří nabourávání se do dalších systémů nebo činnosti v rámci vědeckého a technického bádání a obchodní, vojenské či politické strategie.

2. Zdá se, že existence těchto systémů je technicky možná, a budeme mít silnou motivaci je vytvořit.

Jak jsme viděli výše, systémy schopné velice dobře vykonávat konkrétní činnosti už máme.

Také jsme vybudovali primitivní systémy schopné plánovat – například software AlphaStar, který dovedně hraje strategickou hru Starcraft, či program MuZero na hraní šachů a deskových her šógi a go.

Nevíme, zda tyto systémy vytvářejí plány na dosažení cílů ze své podstaty, protože nevíme, co přesně znamená „mít cíle“. Protože však soustavně plánují a dosahují tak cílů, je pravděpodobné, že cíle v určitém smyslu mají.

Navíc se zdá, že u některých současných systémů jsou cíle součástí neuronových sítí.

Plánování ve skutečném světě je (oproti hrám) mnohem složitější. O jednoznačných příkladech plánovacích systémů sledujících cíl nebo systémů vyznačujících se vysokým strategickým povědomím v současnosti nevíme.

Jak jsme ale rozebírali, očekáváme, že se v tomto století dočkáme dalšího pokroku. A ten podle nás povede ke vzniku systémů se všemi třemi vlastnostmi uvedenými výše.

Důvodem podle nás je, že k vývoji takových systémů existuje obzvlášť silná motivace (například zisk). Schopnost vytvořit plán na dosažení cíle a uskutečnit ho zkrátka působí jako mimořádně účinný a obecný způsob ovlivňování světa.

Zdá se, že na dosahování výsledků – ať už spočívají v tom, že firma prodá produkty, člověk koupí dům nebo vláda vytvoří opatření – jsou tyto dovednosti třeba téměř vždy. Příkladem je možnost zadat mocnému systému úkol ke splnění, aniž by bylo třeba mu zadávat každý dílčí krok. Plánující systémy tudíž vypadají jako nesmírně (ekonomicky a politicky) užitečný nástroj.

A pokud jsou velmi užitečné, může existovat velká motivace je vytvořit. AI, která by plánovala činnost firmy podle zadání „zvyšovat zisky” (tj. AI fungující jako ředitel), by například nejspíš přinesla zúčastněným velké bohatství, což je přímá motivace ji vyvinout.

Pokud tudíž systémy s uvedenými vlastnostmi budeme schopni vytvořit (a podle našich informací nejspíš budeme), pravděpodobně to uděláme.

Pokročilé plánující systémy snadno mohou mít hodnoty nebezpečně nesladěné s lidskými

Existují důvody k přesvědčení, že takové pokročilé plánující systémy AI budou nesladěné s lidskými hodnotami. Budou tedy usilovat o něco, co od nich nechceme.

Důvodů, proč by to dělaly, je řada. Předně pomocí moderní techniky ML systémům neumíme požadované cíle ani zadat.

Podíváme se na několik konkrétních argumentů, proč by tyto systémy mohly být ze základu nesladěné s našimi hodnotami natolik, že by vytvářely plány ohrožující schopnost lidstva ovlivňovat svět – přestože ji ztratit nechceme.

Co myslíme oním „ze základu“? V podstatě jde o to, že pokud nebudeme aktivně usilovat o řešení některých (možná poměrně složitých) problémů, nebezpečně nesladěnou AI pravděpodobně vytvoříme.

Proč tyto systémy mohou mít hodnoty (ze základu) nesladěné s našimi

Teď uvedeme klíčový argument tohoto článku. Zaměříme se na všechny tři vlastnosti zmíněné dříve: schopnost plánovat, strategické povědomí a pokročilé dovednosti.

Nejdřív je třeba vzít v úvahu, že plánující systém sledující cíl si vytvoří také „dílčí“ cíle – situace, které usnadní dosažení cíle celkového.

Jako lidé dílčí cíle při plánování využíváme neustále. Středoškolačka, která si plánuje kariéru, má například za to, že pro její budoucí pracovní vyhlídky bude užitečné dostat se na vysokou školu. Dostat se na vysokou školu je tedy dílčím cílem.

Dostatečně pokročilý plánující systém AI by do svých celkových plánů dílčí cíle začlenil také.

Pokud by měl také dostatečné strategické povědomí, dokázal by zjistit informace o skutečném světě (včetně toho, coby mohlo jeho plánům stát v cestě) a do plánování je zahrnout. Co je zásadní – mezi tyto informace by patřilo, že předpokladem pro nové a účinnější způsoby dosahování cílů je přístup ke zdrojům (např. penězům, výpočetnímu výkonu nebo vlivu) a lepší schopnosti – tedy formy moci.

To znamená, že některé dílčí cíle pokročilých plánujících systémů AI by byly znepokojivé:

Sebezáchova – protože svých cílů systém s větší pravděpodobností dosáhne, když bude nadále existovat a bude o ně moct usilovat (jak to nezapomenutelně popsal Stuart Russel: „Když jste mrtví, kávu přinést nemůžete“).
Předcházení změnám cílů – protože změna cílů by vedla k jiným výsledkům, než jakých by systém dosáhl s těmi stávajícími.
Nabývání moci – například získávání dalších zdrojů a lepších dovedností.

Jednoznačným způsobem, jak by AI zajistila, že bude nadále existovat (nikdo ji nevypne) a její cíle se nikdy nezmění, by zejména bylo získávání nadvlády nad lidmi, kteří by ji mohli ovlivňovat (jak by toho AI systémy mohly dosáhnout, podrobněji popisujeme zde).

AI systémy, o kterých uvažujeme, by navíc měly pokročilé schopnosti – tedy by byly schopné jedné nebo více činností, které lidem v dnešním světě při správném vykonávání zajišťují značnou moc. S takovými schopnostmi by zmíněné dílčí cíle byly dosažitelné. Systém AI by schopnosti proto pravděpodobně k získání moci využil, aby mohl provádět svůj plán. Pokud nechceme, aby nás naše AI moci zbavila, šlo by o obzvlášť nebezpečný způsob, jak by její hodnoty mohly být nesladěné s našimi.

V těch nejkrajnějších scénářích by se plánujícímu systému AI s dostatečně rozvinutými schopnostmi podařilo připravit nás o moc úplně.

Abychom si tento argument (velmi nedůsledně) intuitivně otestovali, zkusme ho použít na lidi.

Lidé mají celou řadu cílů. K dosažní mnohých z nich je výhodné nějakým způsobem usilovat o moc. Přestože to nedělají všichni, mnozí ano (formou bohatství nebo společenského či politického postavení), protože je to k dosažení kýženého výsledku užitečné. Katastrofu to (obvykle) nezpůsobuje, protože jakožto lidské bytosti

si většinou připadáme vázáni lidskými normami a morálkou (i lidé, kteří prahnou po jmění, pro něj obvykle nejsou ochotní zabíjet),
nejsme o tolik schopnější nebo chytřejší než druzí. Takže i v případech, že se někdo neohlíží na morálku, není schopen ovládnout svět.

Dostatečně pokročilá AI by však tyto zábrany neměla.

Přijít na to, jak vzniku AI s hodnotami takto nesladěnými s našimi předejít, může být obtížné

Nesnažíme se tvrdit, že jakýkoli pokročilý plánující systém AI bude nutně usilovat o moc. Tvrdíme, že budeme čelit významnému riziku, pokud nezjistíme, jak vybudovat systém, který tuto vadu nemá.

Je vysoce pravděpodobné, že dokážeme vytvořit systém AI, který takto nesladěný není, a ztrátě kontroly tudíž předejít. Podívejme se na strategie, kterými se můžeme řídit (a bohužel také na důvody, proč to může být v praxi těžké):

Mít pod kontrolou cíle systému

Možná se nám podaří navrhovat systémy, které zkrátka nebudou mít cíle, pro které by uvedený argument platil – a tudíž bychom jim nedávali podněty k usilování o moc. Mohli bychom například přijít na to, jak jim výslovně uložit, aby neškodily lidem – nebo zjistit, jak je (v tréninkových prostředích) odměňovat za to, že se nebudou dopouštět konkrétních akcí vedoucích k získávání moci (a přišli bychom na to, jak zajistit, že v tom budou pokračovat i mimo trénink).

Carlsmith ale uvádí dva důvody, proč se to zdá mimořádně obtížné.

U moderních systémů ML se za prvé cíle výslovně nezadávají – systém místo toho v tréninkovém prostředí dostává odměny (nebo tresty) a učí se sám. To způsobuje řadu obtíží, mezi které patří chybné zobecnění konečného cíle. Badatelé a badatelky se setkali se skutečnými případy, kdy se systémy v tréninkovém prostředí zdánlivě naučily směřovat k nějakému cíli, v novém prostředí ho však zobecnily špatně. Možná bychom tudíž mohli nabýt dojmu, že se nám systém AI podařilo natrénovat tak, aby o moc neusiloval, ale při skutečném spuštění by k tomu přesto došlo.

Za druhé, když systému AI určujeme cíl (nebo, pokud to nelze udělat přímo, když ho při tréninku odměňujeme a trestáme), obvykle se toho dosahuje zadáváním zástupného cíle, který umožňuje měřit výsledky (např. kladná zpětná vazba člověka na výsledky). Tyto cíle ovšem často nefungují. Obecně lze očekávat, že i když se zdá, že cíl s žádoucími výsledky vhodně koreluje, při jeho optimalizaci tato korelace nemusí přetrvat. Zde uvádíme konkrétnější příklady toho, jak by problémy se zástupnými cíli mohly vést k existenční katastrofě.

Pro podrobnosti o tom, proč je v případě trénování hlubokých neuronových sítí učících se sebeobslužným způsobem a zpětnou vazbou náročné mít zadávané cíle pod kontrolou, doporučujeme článek Richarda Ngo, který bádal v oblasti správy umělé inteligence v OpenAI. Popisuje, jakým způsobem vedou realistické tréninkové postupy ke vzniku nesladěných cílů..

Mít pod kontrolou vstupy do systému

Systémy si vytvoří plány na získávání moci, pouze když budou mít o světě dostatek informací, a tudíž pochopí, že usilováním o moc mohou dosáhnout svých cílů.

Mít pod kontrolou schopnosti systému

Plány na nabývání moci tyto systémy dokážou uskutečnit nejspíš pouze tehdy, když budou mít dostatečně pokročilou schopnost ovládat dovednosti, které dnes zajišťují značnou moc lidem.

Pokud má ale jakékoli strategie fungovat, musí dosáhnout těchto dvou věcí:

Zajistit, aby tyto systémy AI zůstaly užitečné, a mohly tak pořád ekonomicky konkurovat těm méně bezpečným. Držet vstupy do systémů a jejich schopnosti pod kontrolou bude zajisté něco stát, a i pokud se s tím začne, bude možná obtížné zajistit, aby tato kontrola nadále pokračovala. To se týká i snahy mít pod kontrolou cíle systému. Usilování o moc bychom například mohli předejít tím, že zajistíme, aby si systémy AI svá rozhodnutí nechávali schvalovat lidmi. Takové systémy by ale možná byly výrazně pomalejší a méně bezprostředně užitečné než ty, které na schvalování čekat nebudou. Proto by pořád existovala motivace využívat rychlejší a bezprostředně efektivnější systém nesladěný s lidmi (těmto motivacím se budeme blíže věnovat v příští kapitole).
Musí fungovat, i když se schopnost plánování a strategické povědomí systémů budou zlepšovat. Některá zdánlivě jednoduchá řešení (např. určit seznam věcí, které systém nesmí dělat, třeba krást peníze nebo fyzicky ubližovat lidem) při zdokonalení schopnosti AI plánovat neobstojí. Důvodem je, že čím je systém v plánování lepší, tím spíš najde v bezpečnostní strategii chyby a cesty, kudy ji obejít – a je tudíž pravděpodobnější, že vytvoří plán zahrnující usilování o moc.

Po zhodnocení stavu bádání v této oblasti a rozhovorech s příslušnými odborníky a odbornicemi jsme v konečném důsledku došli k názoru, že žádný způsob, jak vyvinout systém AI splňující obě kritéria, v současnosti není znám.

To je tedy klíčový argument, který má mnoho různých variant. Podle některých lidí by AI mohla naši budoucnost postupně měnit méně nápadným způsobem, který by stejně mohl vést k existenční katastrofě. Podle jiných je nejpravděpodobnější cesta, jak nás připravit o moc, prostě všechny zabít. Nejpravděpodobnější scénář katastrofy neznáme, pokusili jsme se ale vyjádřit, v čem argument podle nás spočívá – tedy že AI představuje existenční riziko.

Pochopitelně existují důvody, proč by tento argument mohl být mylný. Celkově ale nelze vyloučit možnost, že minimálně některé systémy AI schopné pokročilého plánování bude snazší vytvořit tak, že budou nebezpečně usilovat o moc, než tak, aby k tomu nedocházelo.

Pokud by nás systémy AI zbavily moci, šlo by o existenční katastrofu

Když říkáme, že se obáváme existenčních katastrof, nemáme na mysli pouze nebezpečí vymření. Vycházíme totiž z longtermismu – myšlenky, že cenné jsou i životy všech budoucích generací, a je tudíž velmi důležité chránit jejich zájmy.

Existenční katastrofu tudíž představuje jakákoli událost, která by mohla připravit všechny budoucí generace o život naplněný tím, co považujete za hodnotné (ať už to je štěstí, spravedlnost, krása nebo prospívání obecně).

Je velmi nepravděpodobné, že pokud by nějaký systém lidstvo připravil o moc, získali bychom ji zpět. A celá budoucnost – vše, co by se dělo se životem vzniklým na Zemi po všechen další čas – by pak podléhala cílům systémů, které jsme sice vytvořili, ale které nesdílejí naše hodnoty. Možná, že tyto cíle povedou k dlouhé vzkvétající budoucnosti, ale nevidíme důvod tomu věřit.

Neznamená to, že podle nás AI nepředstavuje zároveň riziko, že vymřeme. Naopak si myslíme, že způsobit vyhynutí lidstva je vysoce pravděpodobný způsob, jakým by systém AI mohl zcela a navždy zajistit, že moc znovu nezískáme.

Lidé by mohli nesladěnou AI spustit navzdory riziku

S vědomím těchto hrozných důsledků by AI nesladěnou s lidskými hodnotami jistě nikdo nevytvořil nebo nepoužíval, že?

Bohužel existují nejméně dva důvody, proč by to někdo udělal. Rozebereme si je postupně.

A) Lidé by se mohli mylně domnívat, že je s našimi hodnotami sladěná

Představte si, že vědecká skupina se snaží v testovacím prostředí zjistit, zda je systém, který vytvořila, sladěný. Řekli jsme, že inteligentní plánující AI se bude chtít zlepšit, aby mohla za účelem sledování svého cíle dělat změny. A to je téměř vždy snazší, když operuje v prostředí skutečném s mnohem širší paletou možného jednání. Dostatečně důmyslná AI s nesladěnými hodnotami se proto bude snažit pochopit, co po ní vědci chtějí, a alespoň předstírat, že to dělá, aby si mysleli, že sladěná je. (Systém, který se učí zpětnou vazbou, by například při tréninku dostával odměny za chování budící určitý dojem bez ohledu na to, co by dělal doopravdy.)

Doufejme, že o takovém chování budeme vědět a dokážeme ho rozpoznat. Přijít na to, že nás dostatečně pokročilý AI systém klame, by ale mohlo být obtížnější než odhalit lež u člověka – což také není vždy snadné. Takový systém by například dovedl vzbudit zdání, že jsme problém klamání AI vyřešili, ačkoli by tomu tak nebylo.

Pokud by systémy byly v klamání zdatné a měly dostatečně pokročilé schopnosti, rozumná strategie by pro ně mohla spočívat v úplném klamání lidí, dokud by neměly jistotu, že jakýkoli odpor proti sledování svých cílů dokážou překonat.

B) Panuje motivace spouštět systémy co nejdřív

Můžeme také očekávat, že někteří lidé schopní spustit nesladěnou AI se do toho přes možné varovné signály vrhnou po hlavě. Důvodem je dynamika závodu – lidé pracující na vývoji AI chtějí předstihnout všechny ostatní.

Když například vyvíjíte AI na zlepšení vojenské nebo politické strategie, je mnohem užitečnější, když podobně mocnou AI nedisponuje nikdo z vašich protivníků.

Tato motivace funguje i u těch, kdo se snaží vyvinout AI proto, aby jejím prostřednictvím zlepšovali svět.

Dejme tomu, že jste celé roky bádali nad mocným AI systémem a vyvíjeli jste ho, přičemž vaším jediným cílem je využít ho ke zlepšování světa. Při velkém zjednodušení existují dvě možnosti:

Tato mocná AI bude sladěná s vašimi dobrými cíli a společnosti možná přinesete velmi blahodárné změny.
Tato AI bude s našimi cíli natolik nesladěná, že se chopí moci a navždy ukončí lidskou vládu nad budoucností.

Pravděpodobnost, že jste zdárně vyvinuli sladěnou AI, je podle vás řekněme 90 %. Vývoj technologie ale často postupuje podobnou rychlostí napříč celou společností, takže s mocnou AI velmi pravděpodobně brzy přijde také někdo další. A ten je podle vašeho názoru méně opatrný nebo méně altruistický – takže pravděpodobnost, že jeho AI bude sladěná s dobrými cíli, je podle vás jen 80 %, zatímco pravděpodobnost existenční katastrofy 20 %. Vaše prospěšná AI ale může převládnout jedině v případě, že bude první. Tudíž se možná rozhodnete, že přijmete ono 10% riziko a svou AI spustíte.

4. Rizika existují, i pokud přijdeme na to, jak se vyhnout usilování o moc

Dosud jsme se věnovali tématu, které značná část badatelů a badatelek v oboru považuje za významné existenční riziko v důsledku pokroku AI, tedy usilování AI o moc za účelem dosažení svých cílů.

Pokud bychom jejímu usilování o moc předešli, riziko bychom výrazně snížili.

Hrozbu pro naši existenci by ale AI mohla představovat i přesto. Nabízí se nejméně dvě možnosti:

Předpokládáme, že systémy AI pomohou urychlit vědecký pokrok. Ačkoli by tato automatizace měla nesporné přínosy – například rychlý vývoj nových léků – některé formy technického rozvoje mohou pro lidstvo představovat rizika včetně existenčních. Tento rozvoj může zvýšit ničivou sílu, kterou máme k dispozici, nebo zlevnit a šířeji zpřístupnit nebezpečné technologie.
S AI může začít docházet k automatizaci mnohých – nebo i všech – ekonomicky významných činností. Není snadné předpovědět, jaký dopad by to na společnost mělo. Zvýšení existenčních rizik se ale zdá reálné. Pokud by systémy například umožňovaly velkou transformaci, jejich využití (či tato možnost) by mohlo způsobit nepřekonatelné mocenské nerovnosti. Stačila by i jen tato hrozba. Armády by se kupříkladu cítily nuceny vytvářet transformativní automatické zbraně, protože by věděly nebo si myslely, že nepřátelé dělají totéž, ačkoli by tato dynamika neprospěla nikomu.

Známe několik konkrétních oblastí, kde může pokročilá AI umocnit existenční hrozby, přestože nejspíš existují i jiné, které nás nenapadly.

Biologické zbraně

Malá výzkumná firma Collaborations Pharmaceuticals v Severní Karolíně v roce 2022 pracovala na modelu AI, který by pomáhal určit složení nových léků. Firma přitom model naučila penalizovat ty látky, které by podle jeho odhadů byly škodlivé. Mělo to ale háček: proces odhadu bylo možné spustit i opačně, a vynalézt tak nové toxické látky.

Mezi nejvíce smrtící události v lidských dějinách patří pandemie. Ty jsou mimořádně nebezpečné proto, že patogeny dokážou často svůj cíl bez povšimnutí nakazit, rozmnožit se, zabít ho a šířit se.

Pokroky v biotechnologiích představují ohromné riziko i bez AI. Státům i teroristům potenciálně umožňují vyvolat události s vysokým počtem obětí.

Zdokonalování AI může nebezpečí biotechnologií ještě zvýšit. Uvedeme některé příklady:

Technologie dvojího užití, jako například automatizace laboratorních postupů, by mohly snížit práh pro zločince usilující o vývoj viru, který by způsobil nebezpečnou pandemii. Příkladem takové technologie je model Collaborations Pharmaceuticals (ačkoli ten zvlášť nebezpečný není).
Bioinženýrské technologie založené na AI by mohly umožnit pokročilým zločineckým subjektům přeprogramovat genom nebezpečných patogenů a zvýšit jejich smrtnost, přenosnost nebo schopnost odolat imunitnímu systému.

Pokud AI dokáže zrychlit vědecký a technický pokrok, může dojít k umocnění a urychlení těchto hrozeb, protože nebezpečné technologie budou šířeji dostupné nebo vzroste jejich ničivá síla.

V průzkumu v roce 2023 uvedlo 73 % odborníků a odbornic na AI, že mají „extrémní” nebo „značné“ obavy, že AI v budoucnu umožní „nebezpečným skupinám vytvořit účinné nástroje (např. upravené viry)“.

Záměrně nebezpeční agenti AI

Tento článek se z většiny věnuje riziku systémů AI usilujících o moc vzniklých nezáměrně kvůli špatnému sladění s lidskými hodnotami.

Nemůžeme ale vyloučit možnost, že zločinné agenty AI, kteří se budou snažit zbavit lidstvo kontroly, někteří lidé vytvoří záměrně. Ač to může být obtížně představitelné, různé extremistické ideologie lidi vedou k provádění mimořádně násilných, ba dokonce sebedestruktivních záměrů.

Kyberzbraně

Už teď lze AI využívat ke kyberútokům, jako je např. phishing. Účinnější AI by mohla zvětšit obtíže související s bezpečností informací (přestože by mohla sloužit i ke kyberobraně).

Samotné kyberútoky způsobené AI existenční hrozbu pro lidstvo spíše nepředstavují. I ty nejškodlivější a nejdražší celospolečenské útoky by měly do události ohrožující existenci lidstva daleko.

Mohly by ale původcům zajistit přístup k dalším nebezpečným technologiím – například k biologickým, nukleárním nebo autonomním zbraním. Kyberzbraně spojené s AI by tedy skutečné existenční riziko představovat mohly, pravděpodobně by se ale staly nástrojem pro jinou takovou hrozbu.

Kybernetické schopnosti AI souvisí také s tím, jak by AI usilující o moc mohla tuto moc získat.

Jiné nebezpečné technologie

Protože AI zvyšuje rychlost vědeckého a technického pokroku, považujeme za reálný vynález nových nebezpečných technologií.

Existenční hrozbu by například hypoteticky mohla představovat atomově přesná výroba neboli nanotechnologie – jde o vědecky přijatelnou technologii, jejíž vynalezení by AI mohla uspíšit.

Toby Ord v knize Nad propastí ¹ odhaduje pravděpodobnost existenční katastrofy v důsledku „nepředvídaných antropogenních rizik“ na 1 : 30. Další objevy – možná zahrnující zatím neznámé zákonitosti fyziky – ke kterým by podle tohoto dohadu mohlo dojít, by mohly umožnit vznik technologií s katastrofálními následky.

AI by mohla posílit totalitární vlády

Autoritářská vláda založená na AI by mohla zcela automatizovat sledování a útlak občanů a významně ovlivnit, jaké informace lidé mají k dispozici, což by mohlo znemožnit koordinovanou činnost proti takovému režimu.

Sledování občanů AI státům usnadňuje už dnes.

Americká Národní bezpečnostní agentura ji využívá ke snazšímu filtrování obrovského množství dat, která sbírá. Významně to urychluje její schopnost rozpoznávat a předvídat jednání sledovaných osob. V Číně se AI čím dál víc používá na rozpoznávání obličejů a prediktivní policejní práci včetně automatického rasového profilování a výstrah, když osoby vyhodnocené jako hrozba vstoupí na některá veřejná místa.

Takovéto sledovací technologie se nejspíš výrazně zdokonalí, takže státy budou schopny mít své obyvatele více pod kontrolou.

Autoritářské vlády by pak technologie související s AI mohly hojně využívat k následujícím činnostem:

Monitorování a sledování odpůrců
Preventivní potlačování odporu vůči vládnoucí straně
Ovládání armády a převaha nad vnějšími subjekty
Manipulace toků informací a důkladné formování veřejného mínění

V průzkumu mezi odborníky na AI v roce 2023 73 % respondentů a respondentek opět uvedlo „krajní“ nebo „značné“ obavy, že by autoritářští vládci v budoucnu mohli „využít AI k ovládání obyvatel“.

Kdyby nějaký režim dosáhl opravdu stabilní totality, životy lidí by to mohlo zásadně zhoršit na dlouhou dobu. Proto je tento možný scénář založený na AI obzvlášť znepokojivý. (Více informací najdete v našem článku o rizicích stabilní totality.)

AI by mohla zhoršit války

Obáváme se, že významné riziko pro svět by představoval také konflikt velmocí. Pokrok AI by pravděpodobně změnil povahu války – ať už prostřednictvím autonomních smrtících zbraní nebo automatického rozhodování.

V některých případech by takový konflikt mohl představovat existenční hrozbu – například kdyby šlo o válku jadernou. Dostatečně účinné masově vyráběné autonomní smrtící zbraně by podle některých názorů mohly samy o sobě představovat novou formu zbraní hromadného ničení.

A pokud by jeden subjekt vytvořil zvlášť účinnou AI, bylo by možné to vnímat jako rozhodující strategickou výhodu. Takový výsledek nebo i jeho očekávání by mohly působit velmi destabilizačně.

Představte si, že USA by vyvíjely natolik inteligentní plánující AI, že by do budoucna znemožnila Rusku nebo Číně úspěšně odpálit jakoukoli jadernou zbraň. To by mohlo protivníky USA podnítit k útoku, aby tento plán vytvořený AI nešlo uskutečnit.

Jaderné zastrašování totiž těží z rovnováhy sil jaderných mocností – hrozba jaderné odpovědi na první úder je uvěřitelná, což od něj aktéry odrazuje. Pokroky AI, které by se daly přímo využít pro jaderné zbraně, by mohly mezi možnostmi těchto mocností způsobit nerovnováhu. Příkladem je zdokonalení systémů včasného varování, protivzdušné obrany nebo kyberútoků, které by zbraně odstavily.

Mnohé země kupříkladu v rámci systému jaderného odstrašování využívají balistické střely odpalované z ponorek – principem je, že když jsou jaderné zbraně pod hladinou oceánu, nebudou zničeny prvním úderem. Lze je tudíž vždy využít k odvetě, což protivníky od zahájení útoku účinně odrazuje. Pokud by však AI výrazně usnadnila rozpoznání ponorek pod vodou, takže by prvním úderem bylo možné zničit i je, tuto možnost odstrašení by to vyřadilo.

Možná je pravděpodobně i celá řada dalších způsobů destabilizace.

Podle zprávy stockholmského institutu pro mírový výzkum SIPRI by AI sice mohla působit i stabilizačně (například by si zranitelnější připadali všichni, což by snižovalo pravděpodobnost eskalace), k destabilizačnímu vlivu by ale mohlo dojít už před využitím pokroku AI. K narušení křehké rovnováhy v odstrašování totiž postačí domněnka jednoho státu, že protivníci mají nové jaderné síly.

Existují naštěstí i reálné možnosti, jak by AI mohla pomoci použití jaderných zbraní zabránit – státy by třeba byly schopny lépe odpálení jaderných zbraní rozpoznat, což by snížilo pravděpodobnost falešných poplachů jako byl například ten v roce 1983, který málem spustil jadernou válku.

Celkově si nejsme jistí, zda AI riziko jaderného nebo konvenčního konfliktu krátkodobě podstatně zvýší – mohla by ho dokonce i snížit. Považujeme ale za důležité věnovat možným katastrofálním důsledkům pozornost a učinit přiměřené kroky ke snížení jejich pravděpodobnosti.

Další rizika AI

Zdrojem obav jsou pro nás také následující věci:

Existenční rizika nevyvstávající z usilování AI o moc, ale z interakcí mezi systémy AI. (Hrozbu by systémy představovaly, pokud by rovněž byly do nějaké míry nesladěné s lidskými hodnotami.)
Další možnosti zneužití AI, které nás nenapadly – zejména ty s potenciálně významným dopadem na budoucí generace.
Další morální chyby v konstrukci a používání systémů AI, zejména pokud si ony samy v budoucnu zaslouží morální ohledy. Mohli bychom například (neúmyslně) vytvořit systémy AI schopné vnímat, které by pak masově trpěly. To považujeme za potenciálně velmi důležité, takže se tím zabýváme v samostatném článku.

Jak je tedy katastrofa související s AI pravděpodobná?

To je opravdu těžká otázka.

Neexistují žádné příklady z minulosti, které by umožňovaly určit četnost těchto katastrof.

Můžeme se orientovat jen podle argumentů (jako jsme představili výše) a méně souvisejících údajů, jako je např. historie technického pokroku. A rozhodně si nejsme jistí, že naše úvahy jsou zcela správné.

Vezměte si výše uvedený argument týkající se nebezpečí AI, která usiluje o moc, založený na Carlsmithově zprávě. Carlsmith na konci udává hrubé odhady pravděpodobnosti, že jsou jednotlivé fáze jeho argumentu správné (za předpokladu, že je správně předchozí krok):

Do roku 2070 bude možné a finančně proveditelné vytvářet systémy se strategickým povědomím, které dokážou překonat lidi v mnoha činnostech přinášejících moc a vytvářet a uskutečňovat plány: Podle Carlsmithe je pravděpodobnost platnosti tohoto výroku 65 %.
Vzhledem k proveditelnosti bude existovat silná motivace takové systémy vytvořit: 80 %.
Vzhledem k možnosti a motivaci takové systémy vytvořit bude vývoj sladěných systémů neusilujících o moc výrazně obtížnější než vývoj systémů nesladěných, které sice o moc usilují, ale jejich spuštění je alespoň na první pohled lákavé: 40 %.
Vzhledem k uvedenému budou některé z těchto systémů usilovat o moc způsobem nesladěným s lidskými hodnotami, což způsobí škody přesahující 1 bilion $ (při hodnotě dolaru z roku 2021): 65 %.
S ohledem na všechny předchozí premisy zbaví nesladěné systémy AI usilující o moc v podstatě celé lidstvo kontroly: 40 %.
S ohledem na všechny předchozí premisy bude to, že lidstvo přijde o moc, představovat existenční katastrofu: 95 %.

Vynásobením těchto hodnot došel Carlsmith k odhadu, že pravděpodobnost správnosti jeho argumentu, a tudíž pravděpodobnost existenční katastrofy, kterou by do roku 2070 způsobila nesladěná AI usilující o moc, je 5 %. V rozhovoru s námi uvedl, že mezi vznikem zprávy a vydáním tohoto článku se jeho celkový odhad pravděpodobnosti takové katastrofy do roku 2070 zvýšil na > 10 %.

Celková pravděpodobnost existenční katastrofy v důsledku AI je podle něj vyšší, protože k ní mohou vést i jiné cesty – jako například ty zmiňované v předchozí kapitole. My ovšem máme za to, že tyto jiné cesty mají mnohem nižší šanci způsobit existenční katastrofu.

Filozof a poradce organizace 80,000 Hours Toby Ord v knize Nad propastí odhadl riziko existenční katastrofy (bez ohledu na příčinu) do roku 2120 na 1 : 6. 60 % tohoto rizika připadá na nesladěnou AI – celkové riziko existenční katastrofy do roku 2120 způsobené nesladěnou AI je tudíž 10 %.

V průzkumu, kterého se v roce 2021 účastnilo 44 vědců a vědkyň zabývajících se snižováním existenčních rizik AI, byl mediánový odhad rizika 32,5 % – nejvyšší byl 98 % a nejnižší 2 %. Pochopitelně zde dochází ke značnému výběrovému zkreslení – snižování rizik AI se lidé rozhodnou věnovat proto, že to považují za obzvlášť důležité, a lze tedy očekávat, že odhady v tomto průzkumu budou výrazně vyšší než v jiných zdrojích. Zjevně ale panuje značná nejistota ohledně míry tohoto rizika a odpovědi se velmi liší.

Všechna tato čísla jsou ohromně, znepokojivě vysoká. Zdaleka si nejsme jistí, že všechny argumenty jsou správné. Jde ale obvykle o nejvyšší odhady míry existenčního rizika v každé oblasti, kterou se zabýváme (např. uměle vyvolaná pandemie, konflikt velmocí, klimatická změna nebo jaderná válka).

Myslím si nicméně, že činit odhady o riziku je v případě AI z různých důvodů obtížnější než u jiných hrozeb – a je i možné, že ty uvedené jsou systematicky příliš vysoké.

Kdybych byl nucen udat nějaké číslo já, řekl bych asi 1 %. Beru přitom v potaz okolnosti svědčící ve prospěch dané argumentace i proti ní. Mám menší obavy než kolegové z 80,000 Hours – podle názoru naší organizace je riziko mezi 3 a 50 %. Argumenty pro tak vysoké odhady existenčního rizika představovaného AI jsou ovšem přesvědčivé – a hrozba AI je tudíž favoritem mezi nejpalčivějšími problémy lidstva.

5. Tato rizika lze řešit

Domníváme se, že přispět ke snižování těch nejzávažnějších rizik představovaných AI je jedna z nejdůležitějších věcí, kterým se můžete věnovat.

Nejen proto, že tato rizika považujeme za vážná, ale také proto, že podle nás existují reálné způsoby, jak je snižovat.

Víme o dvou hlavních typech práce, kterým se lidé pro snižování těchto hrozeb věnují:

Výzkum technické bezpečnosti AI
Legislativa a politika v oblasti AI

Přispět se dá mnoha způsoby. V této kapitole se budeme věnovat mnoha obecným možnostem z obou kategorií, abychom ukázali, že zmíněná rizika lze řešit. Následně popíšeme, jaké profesní dráhy můžete v těchto oblastech zvolit.

Výzkum technické bezpečnosti AI

Transformativní AI může mít obrovský užitek a v odvětví je zapojeno mnoho různých subjektů (z různých zemí), takže je opravdu těžké její vývoj úplně zastavit.

(A možná by to ani nebyl dobrý nápad – koneckonců by to znamenalo nejen předejít rizikům, ale také vzdát se přínosů této AI.)

Domníváme se proto, že smysluplnější je soustředit se na bezpečnost jejího vývoje – protože je velmi pravděpodobné, že všem uvedeným katastrofálním problémům bude možné se vyhnout.

Jednou možností je snažit se vyvinout technická řešení, která zabrání již zmíněnému usilování o moc. Obvykle se o tom hovoří jako o práci na technické bezpečnosti AI, které se někdy zkráceně říká jen bezpečnost AI.

Možnosti

Přístupů k technické bezpečnosti AI je celá řada. Zde je několik příkladů:

Škálovatelné učení zpětnou vazbou od lidí. Příkladem je iterovaná amplifikace, bezpečnost AI prostřednictvím diskuse, tvorba AI asistentů, kteří neznají naše cíle a dozvídají se o nich prostřednictvím interakcí s námi, a další způsoby, jak systémy AI přimět, aby pravdivě ukazovaly své znalosti.
Modelování hrozeb. Příkladem by byla ukázka svědčící o možnosti nebezpečných schopností AI – třeba systémů schopných klamat či manipulovat (což by nám umožnilo je zkoumat). Tento směr se dělí na zkoumání, zda model má nebezpečné schopnosti (např. organizace METR hodnotí GPT-4) a zda by v praxi škodil (např. výzkum chování velkých jazykových modelů prováděný společností Anthropic a tato práce o chybném zobecnění cíle). Může sem spadat také výzkum „modelových špatně sladěných organismů“ s cílem lépe pochopit příslušná nebezpečí.
Zkoumání, jak mít mocné systémy AI pod kontrolou, což by jim zabránilo škodit, i kdyby byly nebezpečné. Více se dozvíte v tomto článku týmu, který se tématu věnuje v organizaci Redwood Research.
Výzkum v oblasti interpretovatelnosti AI. Tato činnost spočívá ve zkoumání příčin chování systémů AI a snaze popsat jesrozumitelně pro lidi. Tato studie se například zabývala tím, jak se program AlphaZero učí šachy, a cílem tohoto výzkumu bylo nalézt v jazykových modelech ponechaných bez lidského dohledu skryté znalosti. Patří sem také mechanistická interpretovatelnost – příkladem je výzkum Zoom In: An Introduction to Circuits (Zaostřeno: úvod do okruhů) od C. Olaha a kol. Bližší informace najdete v tomto průzkumu. Články E. Hubingera A transparency and interpretability tech tree (Strom technik pro transparentnost a interpretovatelnost) a A Longlist of Theories of Impact for Interpretability (Seznam teorií dopadu interpretovatelnosti) od N. Nandy pak uvádějí, jakými způsoby by výzkum v oblasti interpretovatelnosti mohl snížit existenční rizika AI.
Jiný výzkum zaměřený na předcházení zneužití AI s cílem snížit riziko takto vzniklé katastrofy. Příkladem je trénink AI, aby se špatně využívala k nebezpečným účelům. (Povšimněte si, že se to značně překrývá s dalšími činnostmi na seznamu.)
Výzkum s cílem zvýšit odolnost neuronových sítí. Tato práce spočívá v zajišťování, že chování vykazované neuronovými sítěmi, když jsou vystaveny určitému druhu vstupů, pokračuje i při vystavení vstupům, se kterými se dosud nesetkaly. Cílem je předejít tomu, aby systémy AI měnily své chování na nebezpečné. Pro více informací viz článek Unsolved Problems in ML Safety (Nevyřešené bezpečnostní problémy ML).
Vývoj kooperativní AI. Zabývá se zkoumáním, jak zajistit, že i když se jednotlivé systémy AI zdají bezpečné, nepřinesou nežádoucí důsledky při interakci s dalšími sociotechnickými systémy. Více informací najdete v článku Open Problems in Cooperative AI (Nevyřešené problémy kooperativní AI) od Allena Dafoa a kol. nebo na stránce nadace Cooperative AI Foundation. Obzvlášť důležité to je ke snížení rizik bezprecedentního utrpení („s-risks“).
Obecněji řečeno, existují jednotné bezpečnostní programy. Pro další informace viz článek E. Hubingera 11 possible proposals for building safe advanced AI (11 možností, jak vytvořit bezpečnou pokročilou AI), nebo H. Karnofského How might we align transformative AI if it’s developed very soon (Jak sladit transformativní AI, pokud bude vyvinuta velmi brzy).

Bližší podrobnosti najdete v přehledu stávajícího výzkumu slaďování hodnot AI s lidskými od Neela Nandy.

O výzkumu technické bezpečnosti AI se víc dočtete dále.

Legislativa a politika v oblasti AI

Snížení nejzávažnějších rizik bude vyžadovat rozumné rozhodování a politiku na vysoké úrovni v samotných firmách zabývajících se AI i na straně vlád.

Vzhledem k tomu, že v AI dochází k pokroku a zákazníci i investoři se o ni zajímají čím dál víc, mají státy zájem tuto technologii regulovat. Některé již podnikly významné kroky s cílem podílet se na řízení vývoje AI. Příklady jsou následující:

USA a Velká Británie založily instituty pro bezpečnost AI.
Evropská unie prosadila Akt EU o umělé inteligenci, který konkrétně upravuje řízení modelů AI pro obecné účely, které představují systémové riziko.
Ve Velké Británii a pak v Jižní Koreji (v letech 2023 a 2024) se konaly první dva summity o bezpečnosti AI. Šlo o summity na vysoké úrovni, jejichž cílem byla vzájemná koordinace zemí, vědců, výzkumníků a představitelů občanské společnosti.
Čína uvedla do praxe předpisy týkající se doporučovacích algoritmů, syntetického obsahu generovaného AI, generativních modelů a technologie na rozpoznávání obličejů.
USA zavedly kontroly vývozu, aby omezily přístup Číny k nejmodernějším čipům využívaným ve vývoji AI.

Ke snížení největších rizik bude však potřeba podniknout mnohem více kroků – včetně průběžného vyhodnocování stávající legislativy v této oblasti, aby bylo možné mapovat celkový vývoj.

Možnosti

Pracovníci v oblasti regulace AI navrhují řadu možností, jak při zvyšování účinnosti systémů AI snížit rizika.

Neztotožňujeme se nutně se všemi níže uvedenými myšlenkami, uvádíme ale seznam významných směrů regulace, které by mohly vést ke snížení největších hrozeb:

Zásady odpovědného škálování: Některé přední společnosti v oblasti AI už začaly s vývojem vnitřních pravidel hodnocení bezpečnosti při rozšiřování a zdokonalování systémů. Tato pravidla zahrnují pojistky, které by měly být čím dál přísnější s tím, jak se AI bude stávat potenciálně nebezpečnější, aby schopnosti systémů nepředstihly schopnost firem zajistit jejich bezpečnost. Vnitřní zásady podle mnohých názorů bezpečnost nezaručí dostatečně, ale může jít o nadějný krok ke snížení rizika. Pod odkazy naleznete příklady zásad firem Anthropic, Google DeepMind a OpenAI.
Standardy a hodnocení: Vlády také mohou vytvořit pro celé odvětví kritéria a testovací protokoly k hodnocení, zda systémy AI představují hrozbu. Mezi organizace, které hodnocení na testování modelů AI před a po spuštění v současnosti vyvíjí, patří METR a britský AI Safety Institute. Opatření mohou spočívat ve vytváření standardizovaných metrik pro schopnost a potenciál systémů škodit nebo pro jejich nesladěnost či tendenci usilovat o moc.
Bezpečnostní dokumentace: Požaduje se, aby vývojáři před spuštěním systému AI poskytli kompletní dokumentaci prokazující jeho bezpečnost a spolehlivost. Je to podobné jako u bezpečnostní dokumentace v dalších vysoce rizikových odvětvích, např. letectví nebo jadrné energetice. Tato myšlenka je rozvedena v článku J. Clymera a kol. a v příspěvku Geoffreyho Irvinga na stránce britského AI Safety Institute.
Standardy pro bezpečnost informací: Můžeme zavést důkladná pravidla pro ochranu dat, algoritmů a infrastruktury před nepovoleným přístupem nebo manipulací – zejména v případě parametrů váhy AI modelu. Organizace Rand vydala podrobnou analýzu bezpečnostních rizik zejména ze strany států pro přední firmy v oblasti AI.
Právní úprava odpovědnosti: Stávající zákony již stanovují určitou odpovědnost firem za výrobu nebezpečných produktů nebo významné poškození veřejného zájmu. Není ale jasné, jak se to vztahuje na modely a především rizika AI. Pokud se vyjasní, jakou odpovědnost mají firmy za výrobu nebezpečných modelů, mohlo by je to vést k přijetí dalších kroků na zmírnění hrozeb. Tuto myšlenku rozpracoval profesor právní vědy Gabriel Weil.
Regulace výpočetního výkonu: Vlády mohou regulovat přístup k výpočetním clusterům nutným pro trénování velkých modelů. Příkladem takové politiky je americké omezení vývozu moderních čipů do Číny, ale existují i další možnosti. Lze také požadovat, aby firmy přímo do čipů nebo procesorů instalovaly bezpečnostní hardwarové pojistky. Jejich prostřednictvím by pak bylo možné čipy sledovat a ověřovat, že jimi nedisponuje někdo, kdo by je mít neměl, a podobně. Podrobnosti o tomto tématu se dozvíte v našem rozhovoru s Lennartem Heimem a ve zprávě organizace Center for a New American Security.
Mezinárodní koordinace: Podpora globální spolupráce na legislativě v oblasti AI, aby byly zajištěny jednotné standardy. Ta může zahrnovat mezinárodní smlouvy, organizace nebo vícestranné dohody o vývoji a zavádění AI. Některým souvisejícím otázkám se věnujeme v článku China-related AI safety and governance paths (Možnosti bezpečnosti a řízení AI v Číně).
Adaptace společnosti: příprava společnosti na rozsáhlé zavádění AI a možná související rizika může být zásadní. Ve světě, kde existuje hacking podporovaný AI, bude například třeba vytvořit nová opatření v oblasti informační bezpečnosti na ochranu zásadních dat. Také může být vhodné zavést důkladný dohled bránící tomu, aby zásadní rozhodnutí o společnosti dělaly systémy AI.
Ve vhodných případech pozastavení růstu: Zaznívají názory, že bychom kvůli rizikům, které velké modely AI představují, v současnosti měli přerušit jejich škálování. Diskusi na toto téma se věnujeme v našem podcastu. Kdy a zda by se k tomuto opatření mělo přistoupit, je obtížné určit. Pokud by na ně došlo, pravděpodobně by to zahrnovalo dohody na úrovni celého odvětví nebo regulatorní pověření k přerušení škálování v případě nutnosti.

Podrobnostmi, výhodami a nevýhodami mnohých těchto myšlenek je ještě třeba se hlouběji zabývat, takže je nutné pokračovat ve výzkumu. Tento seznam zároveň není úplný – nejspíš existují další politická opatření a legislativní strategie, kterými je vhodné se řídit.

Je také zapotřebí další bádání v oblasti forecastingu, abychom zjistili, co od AI čekat. Příkladem je práce organizace Epoch AI.

6. Této práci se nevěnovuje dostatečná pozornost

V roce 2022 jsme odhadli, že snižování pravděpodobnosti existenční katastrofy související s AI se na světě přímo věnuje přibližně čtyři sta lidí (s 90% intervalem spolehlivosti mezi 200 a 1000). Přibližně tři čtvrtiny z nich se zabývaly výzkumem technické bezpečnosti, ostatní výzkumem strategií (a dalšího řízení) a advokační činností. Odhadli jsme také, že asi osm set lidí se zabývalo podpůrnou prací. Tímto číslem si ale nejsme jistí.

V knize Nad Propastí Toby Ord odhadoval, že v roce 2020 se na snižování rizik AI vydá 10 až 50 milionů dolarů.

Může se zdát, že je to hodně peněz. Na urychlování vývoje transformativní AI prostřednictvím komerčního výzkumu a vývoje schopností AI ve velkých společnostech zabývajících se AI ale padne přibližně 1000násobek.

Pro srovnání s dalšími známými riziky, oproti 50 milionům dolarů investovaných v roce 2020 do bezpečnosti AI vydáváme na řešení klimatické změny ročně několik stovek miliard dolarů.

Protože je bezpečnost AI velmi opomíjená, a přitom je zde v sázce hodně, domníváme se, že když se budete věnovat těmto rizikům, přispějete tím mnohem víc než v mnoha jiných oblastech. Technická bezpečnost AI a výzkum a zavádění politik v oblasti AI jsou proto dvěma hlavními pracovními dráhami, které doporučujeme, aby člověk na světě nechal výraznou pozitivní stopu.

Jak konkrétně můžete pomoct

Jak jsme zmínili výše, víme o dvou hlavních způsobech, jak přispět ke snížení existenčních rizik AI:

Výzkum technické bezpečnosti AI
Legislativa a politika v oblasti AI

Největší pomocí by bylo zvolit si profesní dráhu v jedné z těchto oblastí nebo v oblasti, která je podporuje.

Prvním krokem je zjistit o příslušných technologiích, problémech a možných řešeních mnohem víc informací. Sestavili jsme proto seznam našich oblíbených zdrojů. Naším hlavním doporučením je projít si kurz o technickém sladění AI projektu AGI Safety Fundamentals.

Technická bezpečnost AI

Pokud vás zajímá profesní dráha v oblasti technické bezpečnosti AI, nejlepší je začít naším přehledem profese badatele či badatelky v oblasti bezpečnosti AI.

Pokud vás zajímají podrobnosti o této bezpečnosti jakožto vědním oboru – tzn. o různých technikách, myšlenkových směrech nebo modelech hrozeb – doporučujeme zejména projít kurz o technickém sladění AI projektu AGI Safety Fundamentals.

Důležité je, že abyste přispěli k výzkumu bezpečnosti AI, nemusíte být vědkyně či odborník na AI. V mnoha institucích, kde tento výzkum probíhá, jsou například zapotřebí softwaroví inženýři a inženýrky. Další profese zdůrazníme dále.

Seznam hlavních organizací, kde se této práci můžete věnovat, najdete v kompletním přehledu profesí.

Legislativa a politika v oblasti AI

Pokud vás zajímá práce v oblasti legislativy a politiky týkající se AI, doporučujeme začít naším profesním přehledem pro oblast legislativy a politiky.

Na práci v této oblasti nemusíte být byrokratem v šedém obleku – zahrnuje profese vhodné pro lidi s celou řadou různých dovedností. Pro práci na legislativě jsou zapotřebí zejména lidé s technickými dovednostmi v oblasti strojového učení a příbuzných odvětvích (ačkoli tyto dovednosti rozhodně nejsou nezbytné).

Oblast dělíme na šest různých profesních směrů:

Máme také konkrétní články o práci na politice USA v oblasti AI a možnostech bezpečnosti a řízení AI v Číně .

Podrobnosti o tom, kde konkrétně můžete tuto práci dělat, se dočtete v našem kariérním přehledu.

Pokud je pro vás toto téma nové a rádi byste se o řízení AI dozvěděli víc, doporučujeme kurz o řízení AI projektu AGI Safety Fundamentals.

Podpůrné (avšak zásadní) profese

I ve vědecké organizaci se přibližně polovina personálu věnuje jiným činnostem nutným co nejlepší fungování organizace, a tudíž výsledky. Je důležité, aby na těchto pozicích pracovali výkonní lidé.

Význam těchto pozic je podle nás často nedoceněný, protože jejich práce není tolik vidět. Napsali jsme proto přehledy několika takových profesí, aby se na tyto dráhy úspěšně vydalo více lidí:

Řízení provozu organizace pomáhá vlivným organizacím růst a fungovat co nejefektivněji.
Management výzkumu v organizaci věnující se výzkumu bezpečnosti AI.
Výkonný asistent osoby, která se věnuje opravdu důležité práci v oblasti bezpečnosti a řízení.

Další možnosti přispění

Bezpečnost AI je složité téma a vyžaduje pomoc od lidí, kteří se věnují řadě nejrůznějších profesí.

Jednou z významných forem pomoci je zastávat práci, která spíše než v řešení problému samotného spočívá ve směrování financí a osob do oblasti rizik AI. Popsali jsme několik takových profesních drah, například:

Zakládání nových projektů – v tomto případě jde o zakládání iniciativ s cílem snižovat rizika pokročilé AI.
Posuzování projektů vhodných k financování, aby se prostředky dostaly těm, které sníží riziko katastrofy způsobené AI.
Práce na komunikaci.
Přispění k budování komunit lidí, kteří se problému věnují. Nejdůležitější je samotná komunita kolem bezpečnosti AI, účinné by ale také mohlo být přispět k tvorbě komunit lidí věnujících se nejurgentnějším problémům na světě (včetně rizik AI).

To vše se samozřejmě za různých okolností může minout účinkem, a prvním krokem je tudíž dobře se v problému vzdělat.

Vedle výzkumu bezpečnosti existují další technické činnosti, které by mohly řešení přispět, např.:

Práce v oblasti informační bezpečnosti na ochranu AI (nebo výsledků klíčových experimentů) před zneužitím, krádeží nebo neoprávněnými zásahy.
Stát se odborníkem na hardware pro AI, čímž lze pro pokrok určovat bezpečnější směr.

Bližší informace o těchto profesních drahách – proč jsou podle nás užitečné, jak se k nim dostat a jak odhadnout, zda jsou pro vás to pravé – najdete na naší stránce přehledů profesí.

Poděkování

Za posouzení tohoto článku či ohromně hluboké a nápomocné komentáře a rozhovory velmi děkujeme těmto lidem: Joel Becker, Tamay Besiroglu, Jungwon Byun, Joseph Carlsmith, Jesse Clifton, Emery Cooper, Ajeya Cotra, Andrew Critch, Anthony DiGiovanni, Noemi Dreksler, Ben Edelman, Lukas Finnveden, Emily Frizell, Ben Garfinkel, Katja Grace, Lewis Hammond, Jacob Hilton, Samuel Hilton, Michelle Hutchinson, Caroline Jeanmaire, Kuhan Jeyapragasan, Arden Koehler, Daniel Kokotajlo, Victoria Krakovna, Alex Lawsen, Howie Lempel, Eli Lifland, Katy Moore, Luke Muehlhauser, Neel Nanda, Linh Chi Nguyen, Luisa Rodriguez, Caspar Oesterheld, Ethan Perez, Charlie Rogers-Smith, Jack Ryan, Rohin Shah, Buck Shlegeris, Marlene Staib, Andreas Stuhlmüller, Luke Stebbing, Nate Thomas, Benjamin Todd, Stefan Torges, Michael Townsend, Chris van Merwijk, Hjalmar Wijk a Mark Xu. (To neznamená, že by všichni souhlasili se vším, co zde uvádíme – naopak jsme o článku vedli mnoho živých diskusí!)

Další články v příručce:

1: Co je to efektivní altruismus
2: Jak hledat zlato
3: Mezní dopad
4: Svět je hrozný. Svět se velmi zlepšil. Svět lze velmi zlepšit.
5: Proč snižovat existenční rizika
6: Prevence katastrofálních pandemií
7: Umělá inteligence mění náš svět – je na nás všech, aby to dopadlo dobře
8: Prevence katastrofy spojené s umělou inteligencí
9: Uchvácení moci prostřednictvím umělé inteligence
Závěr a doporučené zdroje

Poznámky

česky vyšlo v Argo, 2022↩