Clustered Regularly Interspaced Short Palindromic Repeatsvignette|368x368px|CRISPR/Cas9. thumb|500px|right|Diagramme du mécanisme de CRISPR. En génétique, les , plus fréquemment désignées sous le nom de CRISPR (acronyme prononcé ), sont des familles de séquences répétées dans l'ADN. De telles familles se caractérisent par des séries de répétitions directes courtes (de 21 à 37 paires de bases) et régulièrement espacées par des séquences appelées , généralement uniques, de 20 à 40 paires de bases.
Transformeurvignette|Schéma représentant l'architecture générale d'un transformeur. Un transformeur (ou modèle auto-attentif) est un modèle d'apprentissage profond introduit en 2017, utilisé principalement dans le domaine du traitement automatique des langues (TAL). Dès 2020, les transformeurs commencent aussi à trouver une application en matière de vision par ordinateur par la création des vision transformers (ViT).
Édition génomiquealt=|vignette|295x295px|Schéma général du processus de modification localisée du génome. L'édition génomique ou modification localisée de séquence génomique (genome editing pour les anglophones) regroupe un ensemble de techniques de manipulation du génome visant à la modification du matériel (et donc de l'information) génétique. Ces techniques sont plus précises et ciblées que les techniques OGM historiques qui consistent à modifier ces organismes par transgenèse, procédé qui introduit un fragment d'ADN exogène à un emplacement aléatoire du génome.
Cas9thumb|236px|Une structure du Cas9 de S. aureus dans un complexe avec un ARN guide (haut) et son ADN cible (bas). Cas9 (en) est une protéine d'origine bactérienne aux propriétés anti-virales. Sa capacité à couper l'ADN au niveau de séquences spécifiques en a fait un outil de biologie moléculaire aux vastes perspectives d'utilisation. C'est une endonucléase d'ADN guidée par ARN, c'est-à-dire une enzyme spécialisée pour couper l'ADN avec deux zones de coupe actives, une pour chaque brin de la double hélice.
Transformeur génératif pré-entraînédroite|vignette| Architecture du modèle GPT Le transformeur génératif pré-entraîné (ou GPT, de l’anglais generative pre-trained transformer) est une famille de modèles de langage généralement formée sur un grand corpus de données textuelles pour générer un texte de type humain. Il est construit en utilisant plusieurs blocs de l'architecture du transformeur. Ils peuvent être affinés pour diverses tâches de traitement du langage naturel telles que la génération de texte, la traduction de langue et la classification de texte.
Traitement automatique du langage naturelLe traitement automatique du langage naturel (TALN), en anglais natural language processing ou NLP, est un domaine multidisciplinaire impliquant la linguistique, l'informatique et l'intelligence artificielle, qui vise à créer des outils de traitement du langage naturel pour diverses applications. Il ne doit pas être confondu avec la linguistique informatique, qui vise à comprendre les langues au moyen d'outils informatiques.
Attention (machine learning)Machine learning-based attention is a mechanism mimicking cognitive attention. It calculates "soft" weights for each word, more precisely for its embedding, in the context window. It can do it either in parallel (such as in transformers) or sequentially (such as recursive neural networks). "Soft" weights can change during each runtime, in contrast to "hard" weights, which are (pre-)trained and fine-tuned and remain frozen afterwards. Multiple attention heads are used in transformer-based large language models.
Apprentissage profondL'apprentissage profond ou apprentissage en profondeur (en anglais : deep learning, deep structured learning, hierarchical learning) est un sous-domaine de l’intelligence artificielle qui utilise des réseaux neuronaux pour résoudre des tâches complexes grâce à des architectures articulées de différentes transformations non linéaires. Ces techniques ont permis des progrès importants et rapides dans les domaines de l'analyse du signal sonore ou visuel et notamment de la reconnaissance faciale, de la reconnaissance vocale, de la vision par ordinateur, du traitement automatisé du langage.
Grand modèle de langageUn grand modèle de langage, grand modèle linguistique, grand modèle de langue, modèle massif de langage ou encore modèle de langage de grande taille (LLM, pour l'anglais large language model) est un modèle de langage possédant un grand nombre de paramètres (généralement de l'ordre du milliard de poids ou plus). Ce sont des réseaux de neurones profonds entraînés sur de grandes quantités de texte non étiqueté utilisant l'apprentissage auto-supervisé ou l'apprentissage semi-supervisé.
Apprentissage automatiqueL'apprentissage automatique (en anglais : machine learning, « apprentissage machine »), apprentissage artificiel ou apprentissage statistique est un champ d'étude de l'intelligence artificielle qui se fonde sur des approches mathématiques et statistiques pour donner aux ordinateurs la capacité d'« apprendre » à partir de données, c'est-à-dire d'améliorer leurs performances à résoudre des tâches sans être explicitement programmés pour chacune. Plus largement, il concerne la conception, l'analyse, l'optimisation, le développement et l'implémentation de telles méthodes.