Giganci technologiczni codziennie korzystają z Multimodal RAG w produkcji! - Spotify używa go do odpowiadania na zapytania muzyczne - YouTube używa go do przekształcania podpowiedzi w utwory - Amazon Music używa go do tworzenia playlisty na podstawie podpowiedzi Nauczmy się, jak zbudować Multimodal Agentic RAG (z kodem):
Dziś zbudujemy multimodalnego agenta RAG, który będzie mógł przeszukiwać dokumenty i pliki audio za pomocą mowy użytkownika. Stos technologiczny: - @AssemblyAI do transkrypcji. - @milvusio jako baza wektorowa. - @beam_cloud do wdrożenia. - @crewAIInc Flows do orkiestracji. Zbudujmy to!
Oto przepływ pracy: - Użytkownik wprowadza dane (audio + dokumenty). - AssemblyAI transkrybuje pliki audio. - Transkrybowany tekst i dokumenty są osadzane w bazie danych wektorowej Milvus. - Agent badawczy pobiera informacje na podstawie zapytania użytkownika. - Agent odpowiedzi wykorzystuje je do stworzenia odpowiedzi. Sprawdź to👇
1️⃣ Wprowadzanie danych Na początek użytkownik dostarcza dane tekstowe i audio w katalogu danych. CrewAI Flow wdraża logikę do odkrywania plików i przygotowywania ich do dalszego przetwarzania. Sprawdź to👇
2️⃣ Transkrybuj audio Następnie transkrybujemy audio użytkownika za pomocą platformy rozpoznawania mowy AssemblyAI. AssemblyAI nie jest oprogramowaniem open source, ale oferuje wystarczająco dużo darmowych kredytów do korzystania z ich modeli transkrypcyjnych SOTA, które są więcej niż wystarczające do tej demonstracji. Sprawdź to👇
3️⃣ Osadź dane wejściowe Przechodząc dalej, przetworzone dane wejściowe z powyższego kroku oraz dane tekstowe są osadzane i przechowywane w bazie danych wektorowej Milvus. Oto jak to robimy 👇
4️⃣ Zapytanie użytkownika Ingestia zakończona. Teraz przechodzimy do fazy wnioskowania! Następnie użytkownik wprowadza zapytanie głosowe, które jest transkrybowane przez AssemblyAI. Sprawdź to👇
5️⃣ Pobierz kontekst Następnie generujemy osadzenie dla zapytania i wyciągamy najbardziej odpowiednie fragmenty z bazy danych wektorów Milvus. Tak to robimy 👇
6️⃣ Wygeneruj odpowiedź Gdy mamy odpowiedni kontekst, nasza ekipa jest wzywana do wygenerowania jasnej i cytowanej odpowiedzi dla użytkownika. Sprawdź to 👇
Na koniec wszystko zamykamy w czystym interfejsie Streamlit i wdrażamy aplikację w bezserwerowym kontenerze przy użyciu Beama. Importujemy niezbędne zależności Pythona i określamy specyfikacje obliczeniowe dla kontenera. A następnie wdrażamy aplikację w kilku linijkach kodu👇
Po wdrożeniu uzyskujemy 100% prywatne wdrożenie dla wielomodalnego przepływu pracy RAG Agentic, który właśnie zbudowaliśmy. Sprawdź tę demonstrację 👇
Oto workflow, który wdrożyliśmy: - Użytkownik dostarczył dane (audio + dokumenty) - AssemblyAI transkrybował pliki audio - Transkrybowane dane zostały osadzone w bazie danych wektorowej - Agent badawczy pobrał informacje z zapytania użytkownika - Agent odpowiedzi wykorzystał je do stworzenia odpowiedzi Sprawdź to👇
Jeśli uważasz go za wnikliwy, udostępnij go ponownie w swojej sieci. Znajdź mnie → @akshay_pachaar ✔️ Aby uzyskać więcej szczegółowych informacji i samouczków na temat LLM, agentów AI i uczenia maszynowego!
Akshay 🚀
Akshay 🚀5 sie, 20:30
Giganci technologiczni codziennie korzystają z Multimodal RAG w produkcji! - Spotify używa go do odpowiadania na zapytania muzyczne - YouTube używa go do przekształcania podpowiedzi w utwory - Amazon Music używa go do tworzenia playlisty na podstawie podpowiedzi Nauczmy się, jak zbudować Multimodal Agentic RAG (z kodem):
106,48K