Mintha Frankenstein szörnyét látnánk megelevenedni – a sötét weben nevelt nyelvi modell a DarkBERT nevet kapta a tudósoktól. De mire kell?

A lavinahatásnak még csak az elején járunk a ChatGPT-hez hasonló nagy nyelvi modellek (LLM) vadonba engedésével, de más GPT-k (Generative Pre-Trained Transformer, vagyis nagyjából Kiképzett Generatív Átalakító), nyílt forráskóddal párosulva, a mesterséges intelligenciát alkalmazó eszközök robbanásszerű növekedését indították el. Mint tudjuk, maga a ChatGPT is felhasználható rendkívül fejlett rosszindulatú programok létrehozására,

de mi a helyzet azokkal, amelyek képzését a legalapvetőbb etikai szabályokat sem tartó adatbázisból tanítják?

Mert már ilyen is van – számolt be a Tom’s Hardware. Az oldal szakértője azt jósolja, hogy ahogy telik az idő, az alkalmazott LLM-ek száma tovább emelkedik, és mindegyik saját területre fog specializálódni. Jó esetben gondosan összeállított kurátori adatokon képzik ki őket, mindig egy adott célra. Most egy újabb ilyen alkalmazás került be a köztudatba, de azzal a baljós eredménnyel, hogy őt nem ártatlan, kíváncsi feliratkozók neki feltett kérdésein, hanem sötét webről származó adatokon képeztek.

Forrás: Freepik

A DarkBERT, ahogy dél-koreai alkotói elnevezték, a 2019-ben kifejlesztett, nem túl sikeres RoBERTa architektúráján alapul. Kezdetben senki sem volt oda érte, de a kutatók rájöttek, hogy sokkal nagyobb teljesítményt is produkálhat, mint amit korábban feltételeztek róla. A modell a kiadásakor súlyosan alulképzett lehetett, ezért messze a maximális hatékonysága alatt teljesített.

Nem úgy a Dark Weben.

A modell kiképzéséhez a kutatók a Tor-hálózat anonimizáló tűzfalán keresztül engedték rá a Dark Webet, majd a nyers adatokat megszűrték (olyan technikákat alkalmazva, mint a deduplikáció, a kategóriakiegyenlítés vagy az adatok előfeldolgozása), hogy létrehozzanak egy Dark Web-adatbázist. Ennek az adatbázisnak az eredménye a DarkBERT, vagyis egy olyan modell megszületése, ami képes elemezni az új Dark Web-tartalmakat. Ezek ugye jellemzően saját dialektusokban és néha erősen kódolt üzenetekben íródnak, de annál hasznosabb információkat lehet kinyerni belőlük.

A kutatók kimutatták, hogy a DarkBERT felülmúlta a többi nagy nyelvi modellt, így lehetővé teszi a biztonsági kutatók és a bűnüldöző szervek számára, hogy mélyebbre ássanak le a sötét web alsó bugyraiba. További képzés és hangolás persze még inkább javíthatná a DarkBERT eredményeit, viszont még a mostani állapotáról sem adtak ki túl sok információt – a végső céljáról meg aztán végképp nem. Tartunk tőle, hogy a dél-koreaiak kísérlete csak egy újabb példája annak az egyelőre tökéletesen szabályozatlan vakrepülésnek, amit a technológiával művelnek különböző cégek és tudóscsoportok.

Ingoványos talaj ez – még az ártatlannak tűnő ChatGPT is hazug:

Egy tanár megbuktatta a diákjait a ChatGPT miatt, ami azt „hazudta”, hogy ő írta a dolgozatukat

 

×