Vývoj evaluací velkých jazykových modelů

Pomáháme srdcem i rozumem
Na základě komunikace s odborníky na bezpečnost umělé inteligence se snažíme přispět k vývoji evaluací (tzv. evalů) velkých jazykových modelů (LLMs).
Naše pracovní skupina se věnuje testování modelů z hlediska jejich tendence či schopnosti manipulovat.
Jak to vypadá?
Více podrobností najdete v tomto dokumentu.
Pro koho to je?
Hlavní částí je vymýšlení smysluplných sérií promptů, které by mohly odhalit a diagnostikovat manipulativní tendence či schopnosti jazykových modelů. K zapojení tedy nejsou potřeba žádné zvláštní předpoklady kromě ochoty zamýšlet se nad daným úkolem a testovat různé způsoby interakce s modely (typicky s GPT). Pro specifické role v týmu se mohou hodit technické schopnosti (klasické programování, ML). Výhodou pro vymýšlení, jak diagnostikovat manipulativní chování AI modelů, může být např. psychologické vzdělání.
Zde můžete vyplnit své časové možnosti a preferované způsoby účasti na projektu.
Specifikace zaměstnání
Kategorie zaměstnání | Analytics, Programming |