Technologische reuzen gebruiken elke dag Multimodal RAG in productie! - Spotify gebruikt het om muziekvragen te beantwoorden - YouTube gebruikt het om prompts om te zetten in nummers - Amazon Music gebruikt het om afspeellijsten te maken op basis van prompts Laten we leren hoe we een Multimodal Agentic RAG kunnen bouwen (met code):
Vandaag gaan we een multimodale Agentic RAG bouwen die documenten en audiobestanden kan doorzoeken met de spraak van de gebruiker. Technische stack: - @AssemblyAI voor transcriptie. - @milvusio als de vector DB. - @beam_cloud voor implementatie. - @crewAIInc Flows voor orkestratie. Laten we het bouwen!
Hier is de workflow: - Gebruiker voert gegevens in (audio + documenten). - AssemblyAI transcribeert de audiobestanden. - Getranscribeerde tekst & documenten worden ingebed in de Milvus vector DB. - Onderzoeksagent haalt informatie op uit de gebruikersvraag. - Reactieagent gebruikt dit om een antwoord te formuleren. Controleer dit👇
1️⃣ Gegevensinvoer Om te beginnen, levert de gebruiker de tekst- en audio-invoergegevens in de gegevensdirectory. CrewAI Flow implementeert de logica om de bestanden te ontdekken en ze klaar te maken voor verdere verwerking. Bekijk dit👇
2️⃣ Transcribe audio Vervolgens transcriberen we de audio-invoer van de gebruiker met behulp van AssemblyAI's Speech-to-text platform. AssemblyAI is niet open source, maar het biedt voldoende gratis tegoeden om hun SOTA-transcriptiemodellen te gebruiken, die meer dan voldoende zijn voor deze demo. Bekijk dit👇
3️⃣ Invoergegevens insluiten Vervolgens worden de getranscribeerde invoergegevens van de bovenstaande stap en de invoertekstgegevens ingesloten en opgeslagen in de Milvus vector DB. Zo doen we het 👇
4️⃣ Gebruikersvraag De opname is voorbij. Nu gaan we naar de inferentiefase! Vervolgens voert de gebruiker een spraakquery in, die wordt getranscribeerd door AssemblyAI. Controleer dit👇
5️⃣ Haal context op Vervolgens genereren we een embedding voor de query en halen we de meest relevante stukken uit de Milvus vector DB. Zo doen we het 👇
6️⃣ Genereer een antwoord Zodra we de relevante context hebben, wordt ons Team ingeschakeld om een duidelijk en geciteerd antwoord voor de gebruiker te genereren. Bekijk dit 👇
Uiteindelijk bundelen we alles in een schone Streamlit-interface en implementeren we de app in een serverloze container met behulp van Beam. We importeren de benodigde Python-afhankelijkheden en specificeren de rekenvereisten voor de container. En dan implementeren we de app in een paar regels code👇
Eenmaal geïmplementeerd, krijgen we een 100% privé-implementatie voor de Multimodale RAG Agentic workflow die we net hebben gebouwd. Bekijk deze demo 👇
Hier is de workflow die we hebben geïmplementeerd: - Gebruiker gaf gegevens (audio + documenten) - AssemblyAI transcribeerde de audiobestanden - Getranscribeerde gegevens zijn ingebed in de vector DB - Onderzoeksagent haalde informatie op uit de gebruikersvraag - Reactieagent gebruikte het om een antwoord te formuleren Bekijk dit👇
Als je het inzichtelijk vond, deel het dan opnieuw met je netwerk. Vind me → @akshay_pachaar ✔️ Voor meer inzichten en tutorials over LLM's, AI Agents en Machine Learning!
Akshay 🚀
Akshay 🚀5 aug, 20:30
Technologische reuzen gebruiken elke dag Multimodal RAG in productie! - Spotify gebruikt het om muziekvragen te beantwoorden - YouTube gebruikt het om prompts om te zetten in nummers - Amazon Music gebruikt het om afspeellijsten te maken op basis van prompts Laten we leren hoe we een Multimodal Agentic RAG kunnen bouwen (met code):
106,48K