Dzięki technologii MosaicML, której współzałożycielem jest absolwent Massachissets Institute of Technology i profesor, modele uczenia głębokiego stały się szybsze i wydajniejsze.
Wpływ sztucznej inteligencji nigdy nie będzie sprawiedliwy, jeśli tylko jedna firma tworzy modele i kontroluje je (nie wspominając o danych, które wchodzą w ich skład). Niestety dzisiejsze modele sztucznej inteligencji składają się z miliardów parametrów, które należy wytrenować i dostroić, aby zmaksymalizować wydajność w każdym przypadku użycia, przez co najpotężniejsze modele sztucznej inteligencji są poza zasięgiem większości ludzi i firm.
MosaicML rozpoczął od misji uczynienia tych modeli bardziej dostępnymi. Firma, której współzałożycielami są doktor Jonathan Frankle i profesor nadzwyczajny MIT Michael Carbin, opracowała platformę, która pozwala użytkownikom szkolić, ulepszać i monitorować modele open source przy użyciu własnych danych. Firma zbudowała także własne modele typu open source, korzystając z procesorów graficznych (GPU) firmy Nvidia.
Dzięki takiemu podejściu głębokie uczenie się, dziedzina rodząca się na początku MosaicML, stała się dostępna dla znacznie większej liczby organizacji, gdy zainteresowanie generatywną sztuczną inteligencją i dużymi modelami językowymi (LLM) eksplodowało po wydaniu Chat GPT-3.5. Dzięki temu MosaicML stał się potężnym narzędziem uzupełniającym dla firm zajmujących się zarządzaniem danymi, które również zaangażowały się w pomaganie organizacjom w korzystaniu z ich danych bez udostępniania ich firmom zajmującym się sztuczną inteligencją.
W zeszłym roku to rozumowanie doprowadziło do przejęcia MosaicML przez Databricks, globalną firmę zajmującą się przechowywaniem danych, analizą i sztuczną inteligencją, która współpracuje z niektórymi z największych organizacji na świecie. Od czasu przejęcia połączone firmy wypuściły jeden z najskuteczniejszych, open source’owych rozwiązań LLM ogólnego przeznaczenia, jakie kiedykolwiek zbudowano. Model ten, znany jako DBRX, ustanowił nowe standardy w zadaniach takich jak czytanie ze zrozumieniem, pytania z zakresu wiedzy ogólnej i łamigłówki logiczne.
Od tego czasu DBRX zyskał reputację jednego z najszybszych dostępnych programów LLM typu open source i okazał się szczególnie przydatny w dużych przedsiębiorstwach.
Frankle twierdzi jednak, że DBRX jest bardziej znaczący niż sam model, ponieważ został zbudowany przy użyciu narzędzi Databricks, co oznacza, że każdy klient firmy może osiągnąć podobną wydajność przy użyciu własnych modeli, co przyspieszy wpływ generatywnej sztucznej inteligencji.
Szczerze mówiąc, to ekscytujące widzieć, jak społeczność robi z tym fajne rzeczy – mówi Frankle. Dla mnie, jako naukowca, to najlepsza część. Tu nie chodzi o model, tylko o te wszystkie niesamowite rzeczy, które społeczność wokół niego robi. To tam dzieje się magia.
Frankle uzyskał tytuły licencjata i magistra informatyki na Uniwersytecie Princeton, zanim w 2016 r. rozpoczął studia doktoranckie na MIT. Na początku studiów na MIT nie był pewien, jaką dziedzinę informatyki chce studiować.
Ostatecznie zdecydował się skupić na formie sztucznej inteligencji znanej jako głębokie uczenie się. W tamtym czasie głębokie uczenie się i sztuczna inteligencja nie budziły tak dużego entuzjazmu jak dzisiaj. Głębokie uczenie się było dziedziną badań istniejącą od kilkudziesięciu lat, która nie przyniosła jeszcze wielu owoców.
Nie sądzę, żeby ktokolwiek w tamtym czasie przewidywał, że głębokie uczenie się rozwinie się w taki sposób” – mówi Frankle. Wtajemniczeni uważali, że to naprawdę fajny obszar i było wiele nierozwiązanych problemów, ale w tamtym czasie nie używano takich wyrażeń, jak model dużego języka (LLM) i generatywna sztuczna inteligencja. To były wczesne dni.
Sprawy zaczęły się robić interesujące wraz z opublikowaniem w 2017 r. niesławnego już artykułu badaczy Google, w którym wykazali, że nowa architektura głębokiego uczenia się, znana jako transformator, jest zaskakująco skuteczna w tłumaczeniu języków i obiecująca w wielu innych zastosowaniach, w tym generowanie treści.
W 2020 r. współzałożyciel i dyrektor ds. technologii Mosaic, Naveen Rao, niespodziewanie wysłał e-mail do Frankle’a i Carbina. Rao przeczytał artykuł, którego oboje są współautorami, w którym badacze pokazali, jak zmniejszyć modele głębokiego uczenia się bez utraty wydajności. Rao namówił tę parę do założenia firmy. Dołączył do nich Hanlin Tang, który współpracował z Rao przy poprzednim startupie AI przejętym przez Intela.
Założyciele zaczęli od zapoznania się z różnymi technikami stosowanymi w celu przyspieszenia uczenia modeli sztucznej inteligencji, a ostatecznie połączyli kilka z nich, aby pokazać, że mogą wytrenować model tak, aby wykonywał klasyfikację obrazów cztery razy szybciej niż to, co osiągnięto wcześniej.
Sztuka polegała na tym, że nie było żadnej sztuczki” – mówi Frankle. Myślę, że aby to zrozumieć, musieliśmy wprowadzić 17 różnych zmian w sposobie trenowania modelu. Było tylko trochę tu i trochę tam, ale okazało się, że to wystarczyło, aby uzyskać niesamowite przyspieszenia. Taka naprawdę była historia Mosaic.
Zespół pokazał, że ich techniki mogą zwiększyć wydajność modeli i w 2023 r. udostępnił model w dużym języku o otwartym kodzie źródłowym wraz z biblioteką swoich metod o otwartym kodzie źródłowym. Opracowano także narzędzia do wizualizacji, które umożliwiają programistom mapowanie różnych opcji eksperymentalnych modeli treningowych i biegowych.
Fundusz E14 z MIT zainwestował w rundę finansowania serii A firmy Mosaic, a Frankle twierdzi, że zespół E14 już na początku udzielił przydatnych wskazówek. Postęp projektu Mosaic umożliwił nowej klasie firm szkolenie własnych modeli generatywnej sztucznej inteligencji.
Misja Mosaic charakteryzowała się demokratyzacją i podejściem open source – mówi Frankle. To coś, co zawsze było bardzo bliskie mojemu sercu. Odkąd byłem doktorantem i nie miałem procesorów graficznych, ponieważ nie byłem w laboratorium uczenia maszynowego, a wszyscy moi znajomi mieli procesory graficzne. Nadal tak się czuję. Dlaczego nie możemy wszyscy wziąć w tym udziału? Dlaczego nie możemy wszyscy zająć się tym i nauką?
Firma Databricks pracowała również nad zapewnieniem swoim klientom dostępu do modeli sztucznej inteligencji. Firma sfinalizowała przejęcie MosaicML w 2023 roku za kwotę 1,3 miliarda dolarów.
W Databricks zaobserwowaliśmy zespół założycieli składający się z naukowców takich samych jak my – mówi Frankle. Widzieliśmy także zespół naukowców, którzy rozumieją technologię. Databricks ma dane, my mamy uczenie maszynowe. Nie da się zrobić jednego bez drugiego i odwrotnie. Skończyło się na naprawdę dobrym meczu.
W marcu firma Databricks wypuściła DBRX, który zapewnił społeczności open source i przedsiębiorstwom budującym własne możliwości LLM, które wcześniej były ograniczone do modeli zamkniętych.
To, co pokazało DBRX, to to, że za pomocą Databricks można zbudować najlepszy na świecie LLM typu open source – mówi Frankle.
Frankle twierdzi, że zespół Databricks został zachęcony wewnętrznym wykorzystaniem DBRX do różnorodnych zadań.
Już jest świetnie, a po niewielkim dostrojeniu jest lepszy od modeli zamkniętych – mówi. Nie we wszystkim będzie lepszy od GPT. To nie tak działa. Ale nikt nie chce rozwiązać każdego problemu. Każdy chce rozwiązać jeden problem. Możemy dostosować ten model, aby był naprawdę świetny do konkretnych scenariuszy.
Ponieważ Databricks w dalszym ciągu przesuwa granice sztucznej inteligencji, a konkurenci w dalszym ciągu inwestują ogromne sumy w sztuczną inteligencję w szerszym zakresie, Frankle ma nadzieję, że branża zacznie postrzegać otwarte oprogramowanie jako najlepszą drogę naprzód.
Źródło: materiały MIT, zdjęcie w tekście: MosaicML, zdjęcie zajawka: Freepik
Zostaw komentarz
You must be logged in to post a comment.