Bonjour et bienvenue, alors aujourd'hui c'est juste une note rapide pour essayer de faire un peu un récap de ce que c'est que l'intelligence artificielle aujourd'hui, de ce qu'on considère comme étant l'intelligence artificielle. On va dire c'est un peu les bases, beaucoup de vulgarisation pour vous mettre au niveau si vous êtes complètement perdus et si vous voulez quand même suivre ce podcast que vous trouvez intéressant. Donc ça va être un condensé d'informations pour juste vous donner un aperçu général. Peut-être qu'il y aura de nombreuses informations que vous connaîtrez déjà, peut-être que je vous apprendrai une nouvelle chose. Dans tous les cas je vais faire mon possible pour être aussi peu ennuyeux que possible. Et vous donner une image générale de ce que c'est que ce qu'on appelle l'intelligence artificielle. Alors déjà l'intelligence artificielle en fait c'est un terme qui est assez peu précis, il est utilisé par les médias, par tout le monde mais en réalité ça englobe plein de sous-domaines, il y a le machine learning, le deep learning. Donc on va se concentrer sur ce à quoi les gens pensent quand ils disent intelligence artificielle, c'est-à-dire les modèles de langage ou même les modèles de langage larges, LLMs, Large Language Models, c'est-à-dire ce qui fait le succès de l'IA aujourd'hui. Parce qu'en réalité l'intelligence artificielle elle a été utilisée depuis des années, même antérieure à 2000 il y avait de nombreux algorithmes de prédiction qui étaient utilisés mais tout simplement ils ne pouvaient pas être utilisés par le grand public comme ils le sont aujourd'hui avec tous ces chatbots auxquels on a accès si facilement. Alors du coup, maintenant quand je vais parler d'intelligence artificielle, je vais probablement en fait parler de modèles de langage. Donc un modèle de langage, je suis certain que je ne vous apprends rien, c'est une machine qui produit du texte. Plus précisément c'est une machine qui essaye de prédire le prochain mot, plus précisément le prochain token, partie d'un mot, qui est la plus vraisemblable, la plus probable étant donné les mots passés. Donc c'est un peu comme si je faisais une longue phrase et que vous deviez prédire le mot qui conclut cette phrase qui vous semble le plus probable. Vous devriez, théoriquement vous avez dû deviner probable à cet endroit de la phrase, en tout cas c'est ce que devrait faire un modèle de langage. Et les modèles de langage, on les a transformés en chatbots en modifiant un peu leur probabilité pour non plus leur demander de prédire le prochain mot, le prochain token le plus probable, mais produire le prochain token le plus probable dans une conversation. C'est ainsi que c'est devenu non pas des machines à générer du texte, mais des machines à parler. Des machines qui sont capables d'avoir un échange avec vous. Ce concept de modèle de langage est né de plein d'innovations. Je pense que les deux plus grandes sont assez intéressantes parce qu'elles permettent d'avoir une rétrospective sur notre propre manière de penser. La première c'est probablement Word2Vect, où c'est l'idée des embeddings, ça date d'à peu près 2014, pour vous donner une idée de la timeline. C'est l'idée de représenter le sens des mots par des vecteurs. Un vecteur c'est un point dans l'espace, mathématiquement. Imaginez l'espace des possibles, on représente une phrase, un document, un mot par un emplacement dans l'espace qui correspond à sa signification profonde. Là on n'est plus sur simplement des lettres qui n'ont pas de sens, on capture le sens des mots. Pour faire ça, bien sûr, on a besoin d'utiliser plein de textes et l'idée c'est qu'on demande à un modèle de prédire un mot manquant et il va être capable de prédire ce mot en comprenant le sens des phrases. Et la deuxième grande innovation qui est arrivée vers 2017-2018, ça va être l'arrivée du modèle dit Transformers, avec un article très connu des équipes de Google qui s'appelle Attention is all you need. Et puis ensuite il y a eu les premiers modèles de type Transformers, avec même des Transformers, je ne vais pas rentrer dans le détail, mais un modèle très connu qui va s'appeler BERT, qui va sortir à peu près en 2018. C'est un peu la base. On arrive sur les premiers modèles qui sont capables de générer du texte et surtout de comprendre profondément du texte. L'idée incroyable qui était derrière cet article, c'est l'idée d'attention. Vous l'avez deviné. C'est-à-dire qu'on va dire au modèle, le texte n'est pas égal. Quand on parle, quand on dit une phrase, certains mots ont plus d'importance par rapport à d'autres mots. Par exemple, si je vous dis, je suis allé à la campagne, le mot campagne est lié au mot aller, puisque je suis allé là-bas, et au mot je, puisque je me trouve finalement à la campagne. Et de cette manière, on peut lier chaque mot à chaque autre mot dans une phrase ou dans un texte. Et cet ensemble de liaisons, on appelle ça la matrice d'attention, c'est-à-dire l'importance de porter son attention sur certains mots quand on réfléchit à certains mots. Et c'est vraiment un mécanisme qui est actuellement présent dans tous les modèles de langage actuels, alors pas forcément sur la structure telle qu'elle était présentée en 2017, mais c'est l'idée générale. Et c'est cette idée principale qui va permettre d'avoir des modèles qui sont capables d'une certaine manière de réfléchir, en tout cas de faire des phrases cohérentes. Alors...You can use these languages on a lot of platforms, let's say the 4 main ones, 5 main ones. It's going to be OpenAI, which you all know, with a model called GPT, Generative Pre-trained Transformer. Transformer is what was invented by Google in this article, Attention Is All You Need. They had the idea to take this concept and make it huge, to make huge models, Large Language Models. So they came up with a model, ChatGPT, which is GPT-3, even GPT-3.5, then they came up with GPT-4, GPT-4.0, that kind of thing. We also have Google in the race, with these models, Gemini, which originally, I don't know if it's still the case, I'd have to find out, works under Palm, another type of architecture, but inspired by the same ideas. We also have Anthropic, the competitor of OpenAI, hidden in the shadows. In general, the best models often come from Anthropic. They are often at the top of the current state of the art, and they have a lot of consideration on ethics, model safety. They really try to make a future that is safe. Without a doubt, one of my favorite companies. I try to be as objective as possible, but at the same time, it's a podcast where I'm going to share my opinions and ideas with you. So if I had to recommend a provider, I would probably recommend Anthropic. We also have Meta, which works a lot in open source, with models like Lama. It's an open source model, a model that you can really run at home. You can download it, you can use it as you wish. They recently released Lama 4 in its largest versions. These are models that are surprisingly joining the closed source models of OpenAI, Google, etc. But we'll have the pleasure of talking about it. And then there's Microsoft, also with a lot of open source models, like Phi. Even if they may be a little less known than Lama, because they are more recent. And of course, recently, you've certainly heard about DeepSeek, which has released an open source DeepSeek R1 model, capable of reasoning and able to match the performance of very, very large models. Yet, being open source, it's actually quite small. Just by thinking about it. But we'll be able to talk about that again. So these models are enriched. There have been capabilities that have made them more and more powerful. First of all, it happened with multi-modality. When you think of GPT-4O, it's GPT-4 Omni. It has the ability to interact with many types of content. For example, content like an image, content like text, but even content like voice. And itself, it only produces text. But GPT-4O, they even changed the idea a little bit. Because most of the models that produce voice, what they actually do is they produce text. And then another model transforms this text into something vocal. Whereas when we talk about GPT-4O, we're talking about a model that's able to directly produce voice, like a human would do. There's no such intermediate interface between text production and then someone who's going to read this text. So that's multi-modality. Then there was reasoning. The idea of saying, in fact, a human being, he's not just going to get out of the text. He's reasoning behind it. I mean, you can't see it, but he's thinking. And so we said to ourselves, why don't we make them talk to themselves in a loop until they're sure of their answer? And then we make them give their answer by oral to the user. And this idea comes from a prompting strategy. We can talk about it again, but it's called the idea of chain of thought. That is to say, ask the model, think step by step. And instead of giving me the solution immediately to this very complex problem, you need to think about it. You need to think about it. To say, I have to explore this, then that, then that. To finally give the final solution. These are the reasoning models that we see with OpenAI models like GPT-O1, O2, O3, O4. They're all coming out. But also DeepSeek R1. These are models that have become very strong for that. And then to come back to Anthropic, we had Cloud 3.7, Sonnet, which also reasons. Reasoning ability. And then finally, a little bit of the future. What is happening is what we call multi-agent systems. That is to say, instead of having an AI, a model, we have several models with different instructions. Which interact with each other, are able to discuss with each other, and are also able to call tools. For example, a tool for image analysis, a tool for image generation, that kind of thing. To produce more complex content. See, plan these actions, think in the long run. All of this aims at the grail of artificial intelligence, which is also quite scary.and of course we're not going to talk about it a lot, but it's the AI, the General Artificial Intelligence. That is to say, an AI that is smart enough to improve itself, and from which there is an exponential progression of capabilities, it would be able to do everything that a human being does, in the same or better way, and to improve itself. So that's it, that was the essentials. Roughly speaking, the current AI, when we talk about AI, we're mostly talking about large-scale language models. There are many that are born from innovation, like embeddings or tension. There are a lot of major players, it's evolving very, very quickly, we're going to talk about it, and we'll zoom in on a lot of specific points that I've discussed in the next notes, and also to talk a little more about the news, about what's going on right now, and why it's so important to grow on AI today.