Chapitre 2
Les capacités multimodales de Gemini
Les capacités multimodales de Gemini
Là où Gemini brille véritablement, c'est dans sa capacité à traiter plusieurs types de contenus simultanément. Ce chapitre explore ces fonctionnalités uniques.
Analyse d'images
Gemini peut analyser et décrire des images en détail :
- Identifier des objets, personnes, lieux
- Lire et interpréter des graphiques
- Décrire des œuvres d'art
- Analyser des documents scannés
Exemple pratique :
- Prenez une photo de votre tableau blanc avec vos notes de réunion
- Envoyez-la à Gemini
- Demandez : "Transforme ces notes en compte-rendu structuré"
Travail avec des documents
Gemini peut analyser des PDFs et documents longs :
Prompt : J'ai joint un rapport de 50 pages sur le marché européen
du SaaS. Résume les 5 points clés et identifie les opportunités
pour une startup B2B.
Génération d'images avec Imagen
Gemini Advanced intègre Imagen 3 pour générer des images :
- Créer des visuels pour vos présentations
- Générer des illustrations pour vos articles
- Prototyper des designs rapidement
Analyse de code
Collez votre code et demandez à Gemini :
- D'expliquer le fonctionnement
- De trouver les bugs
- D'optimiser les performances
- De convertir entre langages
Exercice multimodal
Prenez une capture d'écran d'un graphique complexe (données financières, statistiques), envoyez-la à Gemini et demandez-lui d'en faire une analyse et de proposer des améliorations de visualisation.