Czym jest LLaVA i jak zmieni nasz sposób komunikacji z maszynami?

2023-09-05

siedziba microsoft

Obraz/Pixaby


Czy zastanawiałeś się kiedyś, jakby to było, gdybyś mógł rozmawiać z inteligentnym asystentem, który nie tylko rozumie język naturalny, ale także potrafi analizować obrazy i wykonywać zadania wizualne? Takim modelem jest LLaVA (Large Language and Vision Assistant), nowy projekt badawczy opracowany przez naukowców z Microsoftu, Uniwersytetu Wisconsin-Madison i Uniwersytetu Columbia.


Czym jest LLaVA?

LLaVA to model sztucznej inteligencji, który łączy w sobie zaawansowane umiejętności językowe i wizualne. LLaVA potrafi nie tylko odpowiadać na pytania dotyczące treści obrazów, ale także prowadzić wirtualne rozmowy z użytkownikiem na temat obrazów, zadawać własne pytania i wykonywać polecenia wizualne. Na przykład, LLaVA może poprosić użytkownika o zaznaczenie na obrazie pewnego obiektu, a następnie opisać go lub porównać z innym obiektem. LLaVA może także tworzyć nowe obrazy na podstawie opisu tekstowego lub modyfikować istniejące obrazy według instrukcji użytkownika.

Jak działa?

LLaVA składa się z dwóch podstawowych modeli: CLIP dla wizji i LLaMA dla języka, połączonych dodatkową warstwą sieciową. CLIP to model opracowany przez OpenAI, który potrafi klasyfikować obrazy na podstawie dowolnego opisu tekstowego. LLaMA to model opracowany przez Microsoft Research, który potrafi generować tekst na wysokim poziomie za pomocą techniki nazywanej instrukcyjnym strojeniem (instruction tuning). Instrukcyjne strojenie polega na tym, że model uczy się na podstawie danych zawierających pary instrukcji i odpowiedzi.

Przykład:
"Instrukcja: Napisz krótki wiersz o miłości. Odpowiedź: Miłość to uczucie niezwykłe, Które daje nam siłę i nadzieję. Miłość to dar, który trzeba pielęgnować, Który sprawia, że chcemy się rozwijać."

LLaVA został wytrenowany na syntetycznym zbiorze danych zawierającym instrukcje i odpowiedzi dotyczące treści obrazów. Zbiór ten został wygenerowany automatycznie za pomocą innego modelu językowego - GPT-4.
GPT-4 to najnowszy i największy model językowy stworzony przez OpenAI, który potrafi generować tekst na dowolny temat. Model ten został poproszony o stworzenie wirtualnych rozmów między użytkownikiem, a asystentem na temat obrazów pochodzących z bazy danych COCO. COCO to popularna baza używana do uczenia maszynowego, która zawiera ponad 200 tysięcy obrazów z opisami i zaznaczonymi obiektami.

Przykładowa rozmowa wygenerowana przez GPT-4 wygląda tak: Użytkownik: Pokaż mi zdjęcie psa. Asystent: Oto zdjęcie psa. Użytkownik: Jaka jest rasa tego psa? Asystent: To jest labrador retriever. Użytkownik: Czy ten pies jest szczęśliwy? Asystent: Tak, ten pies wygląda na szczęśliwego. Ma otwarte usta i macha ogonem. Użytkownik: Czy możesz zmienić kolor sierści tego psa na niebieski? Asystent: Tak, mogę to zrobić. Oto nowy obraz.

Czy LLaVA jest już dostępny dla użytkowników?

LLaVA jest nadal projektem badawczym i nie jest jeszcze dostępny dla użytkowników. Jednak naukowcy, którzy go stworzyli, udostępnili kod źródłowy i punkty kontrolne modelu na platformie GitHub. Można więc pobrać LLaVA i spróbować go uruchomić na własnym komputerze lub w chmurze. Należy jednak pamiętać, że LLaVA jest bardzo dużym modelem, który wymaga dużej ilości pamięci i mocy obliczeniowej. LLaVA ma 13 miliardów parametrów, co oznacza, że potrzebuje około 50 GB pamięci RAM do działania. Do treningu LLaVA użyto 64 kart graficznych NVIDIA V100 przez 3 dni.

Podsumowując - LLaVA potrafi nie tylko odpowiadać na pytania dotyczące obrazów, ale także prowadzić rozmowy i wykonywać zadania wizualne. Składa się z dwóch modeli: CLIP dla wizji i LLaMA dla języka, połączonych dodatkową warstwą sieciową. LLaVA został wytrenowany na syntetycznym zbiorze danych wygenerowanym przez GPT-4. LLaVA osiągnął rekordową dokładność na zadaniu ScienceQA, które polega na odpowiadaniu na pytania związane z nauką.

Źródła:
github.com/microsoft/LLaVA-Med
infoq.com/news/2023/05/microsoft-llava-chatbot/
arxiv.org/abs/2304.08485


Powrót na stronę główną