Od czasu wydania GPT-2 w 2019 r. narzędzia dużego modelu języka (LLM) stały się stopniowo lepsze w tworzeniu historii, artykułów informacyjnych, esejów studenckich i innych.
Podczas gdy LLM są używane do oszczędzania czasu, a nawet zwiększania kreatywności w tworzeniu pomysłów i pisaniu, ich moc może prowadzić do niewłaściwego użycia i szkodliwych skutków, które już pojawiają się w przestrzeniach, w których konsumujemy informacje. Niemożność wykrycia tekstu generowanego maszynowo tylko zwiększa potencjał szkód.
Jednym ze sposobów, w jaki zarówno naukowcy, jak i firmy próbują udoskonalić to wykrywanie, jest zatrudnianie samych maszyn. Modele uczenia maszynowego mogą identyfikować subtelne wzorce wyboru słów i konstrukcji gramatycznych, aby rozpoznawać tekst generowany przez LLM w sposób, w jaki nasza ludzka intuicja nie potrafi.
Obecnie wiele komercyjnych detektorów twierdzi, że są bardzo skuteczne w wykrywaniu tekstu generowanego maszynowo, z dokładnością do 99%, ale czy te twierdzenia są zbyt piękne, aby mogły być prawdziwe? Chris Callison-Burch , profesor informatyki i nauk informacyjnych, oraz Liam Dugan, doktorant w grupie Callison-Burch, postanowili to sprawdzić w swoim najnowszym artykule opublikowanym na 62. dorocznym spotkaniu Association for Computational Linguistics.
Liam Dugan przedstawia RAID na 62. dorocznym spotkaniu Stowarzyszenia Lingwistyki Komputerowej w Bangkoku.
W miarę jak technologia wykrywania tekstu generowanego maszynowo postępuje, tak samo postępuje technologia używana do omijania detektorów — mówi Callison-Burch. „To wyścig zbrojeń i chociaż cel opracowania solidnych detektorów jest tym, do czego powinniśmy dążyć, istnieje wiele ograniczeń i luk w dostępnych obecnie detektorach.
Aby zbadać te ograniczenia i wskazać drogę do opracowania solidnych detektorów, zespół badawczy stworzył Robust AI Detector (RAID), zbiór danych obejmujący ponad 10 milionów dokumentów obejmujących przepisy, artykuły informacyjne, wpisy na blogach i wiele innych, w tym zarówno tekst generowany przez AI, jak i tekst generowany przez ludzi. RAID służy jako pierwszy znormalizowany punkt odniesienia do testowania zdolności wykrywania w obecnych i przyszłych detektorach. Oprócz utworzenia zbioru danych stworzyli oni tabelę liderów, która publicznie klasyfikuje wydajność wszystkich detektorów, które zostały ocenione przy użyciu RAID w sposób bezstronny.
Koncepcja tabeli liderów była kluczem do sukcesu w wielu aspektach uczenia maszynowego, takich jak widzenie komputerowe — mówi Dugan. – Test RAID jest pierwszą tabelą liderów do solidnego wykrywania tekstu generowanego przez AI. Mamy nadzieję, że nasza tabela liderów zachęci do przejrzystości i wysokiej jakości badań w tej szybko rozwijającej się dziedzinie.
Dugan zauważył już, jaki wpływ ta publikacja ma na firmy opracowujące detektory.
Wkrótce po tym, jak nasz artykuł stał się dostępny jako preprint i po tym, jak udostępniliśmy zestaw danych RAID, zaczęliśmy widzieć, że zestaw danych jest pobierany wiele razy, i skontaktowała się z nami Originality.ai, znana firma, która opracowuje detektory tekstu generowanego przez AI — mówi. Podzielili się naszą pracą we wpisie na blogu , ocenili swój detektor w naszej tabeli liderów i używają RAID do identyfikowania wcześniej ukrytych luk i ulepszania swojego narzędzia do wykrywania. To inspirujące, że społeczność docenia tę pracę i również dąży do podniesienia poprzeczki dla technologii wykrywania AI.
Czy zatem obecne detektory wytrzymują pracę, którą mają wykonać? RAID pokazuje, że niewiele z nich radzi sobie tak dobrze, jak twierdzą.
Detektory trenowane na ChatGPT były w większości bezużyteczne w wykrywaniu wygenerowanych maszynowo wyników tekstowych z innych LLM, takich jak Llama i odwrotnie — mówi Callison-Burch. Detektory trenowane na artykułach informacyjnych nie sprawdzają się podczas przeglądania generowanych maszynowo przepisów lub kreatywnego pisania. Odkryliśmy, że istnieje niezliczona liczba detektorów, które działają dobrze tylko wtedy, gdy są stosowane w bardzo specyficznych przypadkach użycia i podczas przeglądania tekstu podobnego do tekstu, na którym zostały wytrenowane.
Detektory są w stanie wykryć tekst wygenerowany przez sztuczną inteligencję, gdy nie zawiera on żadnych edycji ani „zamaskowań”, ale po zmanipulowaniu obecne detektory nie są w stanie niezawodnie wykryć tekstu wygenerowanego przez sztuczną inteligencję.
Wadliwe detektory stanowią problem nie tylko dlatego, że nie działają prawidłowo, ale mogą być równie niebezpieczne, co narzędzie AI użyte do wygenerowania tekstu.
Gdyby uniwersytety lub szkoły polegały na wąsko wyszkolonym detektorze, aby wyłapać studentów korzystających z ChatGPT do pisania prac, mogłyby fałszywie oskarżać studentów o ściąganie, podczas gdy tego nie robią — mówi Callison-Burch. – Mogłyby również nie zauważyć studentów, którzy ściągali, korzystając z innych LLM do generowania prac domowych.
Nie tylko wyszkolenie detektora lub jego brak ogranicza jego zdolność do wykrywania tekstu generowanego przez maszynę. Zespół zbadał, w jaki sposób ataki przeciwników, takie jak zastępowanie liter podobnymi symbolami, mogą łatwo wykoleić detektor i pozwolić tekstowi generowanemu przez maszynę pozostać niezauważonym.
Okazuje się, że istnieje wiele edycji, które użytkownik może wprowadzić, aby uniknąć wykrycia przez detektory, które oceniliśmy w tym badaniu — mówi Dugan. – Coś tak prostego, jak wstawianie dodatkowych spacji, zamiana liter na symbole lub używanie alternatywnej pisowni lub synonimów dla kilku słów, może sprawić, że detektor stanie się bezużyteczny.
Zamiana pewnych liter na podobnie wyglądające symbole to jeden z rodzajów ataków, który zakłóca działanie obecnych detektorów.
Badanie wykazało, że chociaż obecne detektory nie są jeszcze na tyle solidne, aby mogły być powszechnie stosowane, otwarta ocena detektorów na dużych, zróżnicowanych i współdzielonych zasobach ma kluczowe znaczenie dla przyspieszenia postępu i zwiększenia zaufania do wykrywania, a przejrzystość doprowadzi do opracowania detektorów, które sprawdzą się w różnych przypadkach użycia.
Ocena solidności jest szczególnie ważna dla wykrywania i zyskuje na znaczeniu wraz ze wzrostem skali publicznego wdrażania — mówi Dugan. – Musimy również pamiętać, że wykrywanie jest tylko jednym z narzędzi dla większej, jeszcze cenniejszej motywacji: zapobiegania szkodom poprzez masową dystrybucję tekstu generowanego przez AI.
Moja praca koncentruje się na zmniejszeniu szkód, jakie LLM mogą nieumyślnie wyrządzić, a przynajmniej na uświadomieniu ludziom szkód, aby mogli być lepiej poinformowani podczas interakcji z informacjami – kontynuuje. – W obszarze dystrybucji i konsumpcji informacji coraz ważniejsze będzie zrozumienie, gdzie i jak generowany jest tekst, a ten artykuł to tylko jeden ze sposobów, w jaki pracuję nad wypełnieniem tych luk zarówno w społeczności naukowej, jak i publicznej.
Dugan i Callison-Burch współpracowali z kilkoma innymi badaczami w tym badaniu, w tym studentami studiów podyplomowych Penn Alyssą Hwang, Joshem Magnusem Ludanem, Andrew Zhu i Hainiu Xu, a także byłą doktorantką Penn Daphne Ippolito i Filipem Trhlikiem, studentem licencjackim University College London. Nadal pracują nad projektami, które koncentrują się na zwiększaniu niezawodności i bezpieczeństwa narzędzi AI oraz na tym, jak społeczeństwo integruje je z codziennym życiem.
Badanie zostało sfinansowane przez Intelligence Advanced Research Activity (IARPA) na podstawie dyrektywy Biura Dyrektora Krajowego Wywiadu oraz w ramach programu Human Interpretable Attribution of Text Using Underlying Structure (HIATUS).
Źródło: materiały prasowe, zdjęcie zajawka: Freepik
Zostaw komentarz
You must be logged in to post a comment.