Ai Multimodal

Try it out

Help me use the Ai Multimodal skill effectively.

How it works

Multimodal AI processing via Google Gemini API (2M tokens context). Capabilities: audio (transcription, 9.5hr max, summarization, music analysis), images (captioning, OCR, object detection, segmentation, visual Q&A), video (scene detection, 6hr max, YouTube URLs, temporal analysis), documents (PDF e

Type

Platforms

Best for

Resources

Ai Multimodal

Try it out

How it works

Tags