06-06-Daily

La Quotidienne IA 2025/6/6

Actus Produits & Fonctionnalités IA

Pollo AI débarque avec une plateforme tout-en-un de génération d’images et de vidéos par IA, qui embarque des modèles de pointe mondiaux comme Google Veo 3, Kling, etc. Elle propose des fonctionnalités variées comme la conversion texte-vidéo, la stylisation d’images, la cohérence des personnages, et supporte l’accès via API. Par rapport aux plateformes similaires, elle est plus avantageuse en termes de coût et de modèles, et a même décroché la licence pour le modèle Veo 3 de Google Cloud.
Luma Labs vient de lancer son tout nouvel outil de montage vidéo IA, Modify Video. Basé sur sa plateforme Dream Machine et le modèle Ray2, il permet aux utilisateurs de remodeler le style des vidéos, remplacer des scènes et ajuster des personnages juste avec des invites textuelles, ce qui réduit gravement la complexité et le coût de la production vidéo traditionnelle. Grâce à la puissance du modèle Ray2, cet outil est au top niveau fluidité de mouvement et cohérence temporelle, et il rend la créativité accessible à tous.
Google a mis à jour Gemini 2.5, boostant significativement ses technologies de conversation et de génération audio par IA, le transformant en un système IA multimodal capable de piger et de sortir nativement du texte, des images, de l’audio, de la vidéo et du code. Ces nouvelles fonctionnalités rendent l’interaction avec l’IA plus naturelle et fluide, gérant la conversation audio en temps réel, le contrôle du style et le multilingue. Grâce à une technologie texte-voix contrôlable, les utilisateurs peuvent régler au poil l’intonation et l’émotion de la sortie vocale.
Le méga populaire jeu mobile « Justice Online » s’est allié à Keling AI pour lancer une nouvelle feature de jeu, la “Image en mouvement”. Les joueurs peuvent désormais transformer easy des images statiques en animations personnalisées. Cette fonctionnalité permet de prendre des captures d’écran ou d’uploader des images, et de générer des GIFs animés juste en tapant des mots-clés. On peut même créer des trucs à deux, ce qui booste grave l’expérience de jeu.

Recherche de Pointe IA

NVIDIA a sorti Llama-3.1-Nemotron-Nano-VL-8B-V1, un modèle de langage visuel à 8 milliards de paramètres basé sur l’architecture Llama-3.1. Il gère les entrées image, vidéo et texte, capable de générer du texte de haute qualité et doté de puissantes capacités d’inférence visuelle. Ce modèle est super performant en OCR et en intelligence documentaire, et peut tourner nickel sur une seule carte GPU RTX grâce à la technologie de quantification AWQ4bit. Il est déjà dispo en open-source sur la plateforme Hugging Face, offrant ainsi aux devs une solution IA multimodale light et qui dépote.
Voyager, c’est un nouveau framework de diffusion vidéo qui peut générer des séquences de nuages de points 3D cohérentes à l’échelle du monde à partir d’une seule image et d’un chemin de caméra défini par l’utilisateur. C’est nickel pour les scènes 3D explorables dans les jeux et la réalité virtuelle. Cette technologie assure une cohérence 3D intrinsèque entre les images en générant conjointement des séquences vidéo RGB et de profondeur alignées, améliorant grave la qualité visuelle et la précision géométrique. L’article est dispo ici : https://arxiv.org/abs/2506.04225

L’IA : Perspectives Industrie & Impact Sociétal

Le dernier rapport IA de l’investisseuse de la Silicon Valley, Mary Meeker, révèle que le paysage concurrentiel mondial de l’IA est en pleine transformation. La force de l’IA chinoise et la vague open-source prennent de l’ampleur, bousculant la domination des leaders comme OpenAI. Le rapport souligne que les performances des modèles IA chinois sont quasiment au niveau des top mondiaux et qu’ils montrent une capacité de dingue à s’intégrer dans le secteur manufacturier. Parallèlement, les modèles open-source, grâce à leurs faibles coûts et leur grande flexibilité, voient leur part de marché exploser, annonçant une nouvelle ère de confrontation multipolaire dans l’industrie de l’IA.

Les Projets Open Source du Moment

netbird est un projet open-source qui cartonne avec 14029 étoiles. Basé sur WireGuard®, il permet de connecter les appareils à un réseau maillé sécurisé, et gère le SSO, le MFA et un contrôle d’accès granulaire, pour une connexion réseau sûre et qui dépote. Le projet est là : https://github.com/netbirdio/netbird
quarkdown est un projet open-source avec 3952 étoiles, qui veut donner des “super-pouvoirs” au texte Markdown, pour transformer easy des idées en présentations, articles et livres, entre autres formats. Le projet est là : https://github.com/iamgio/quarkdown
cognee est un projet open-source avec 2658 étoiles. Son truc de fou, c’est de permettre la mémoire pour les agents IA en seulement 5 lignes de code, ce qui simplifie à mort la complexité du développement d’agents. Le projet est là : https://github.com/topoteretes/cognee

Partages Sociaux

@wwwyesterday a partagé une petite astuce pour parler avec l’IA : au début, faire en sorte que l’IA nous appelle “frangin” à chaque réponse. Dès que l’IA nous lâche sur le “frangin”, ça veut dire qu’on peut relancer une nouvelle conversation. Ce petit hack utilise habilement le mécanisme de “mémoire” de l’IA, donnant aux utilisateurs un indice pour savoir s’il faut relancer la conversation.
Gorden Sun a lâché la nouvelle : Fish Audio a mis en open source son modèle vocal S1-mini, une version allégée (0.5B paramètres) du modèle S1 qui fait le taf. Le S1-mini, les particuliers peuvent le déployer et l’utiliser gratos, mais pas pour le business. Expérience en ligne et liens du modèle : https://huggingface.co/spaces/fishaudio/openaudio-s1-mini https://huggingface.co/fishaudio/openaudio-s1-mini.

Écoute la version audio

🎙️ Xiaoyuzhou	📹 Douyin
Laisheng Xiaojiuguan	Laisheng Qingbaozhan

Dernière modification 2025/06/24 06:39:17

06-07-Daily 06-05-Daily