What do you know, BERT ? Exploring the linguistic competencies of Transformer-based contextual word embeddings

Eleni Metheniti

Résumé

Transformer-based embeddings, also known as large language models, are being widely used in NLP applications, outperforming traditional methods and neural network approaches. However, quantitative success in NLP tasks does not guarantee a complete mastery of human language. Humans are capable of learning semantic concepts and expressing them with the appropriate syntactic patterns, while Transformer-based language models learn artifacts and idiosyncratic patterns of syntax, but no notions of semantics.This doctoral thesis studies the linguistic abilities and limitations of Transformer-based contextual word embeddings, with experiments on complex syntactic-semantic phenomena. The main question is: even though contextual word embeddings can capture enough information to be competent in complex linguistic tasks, are their successes due to a true understanding of word relations and hierarchies or a repetition of language patterns? We selected linguistic features in English and French that are understood by native speakers with mature syntactic-semantic competencies but have been traditionally hard to define with linguistic rules.Selectional preference is the tendency of a predicate to favor certain arguments within a certain linguistic context and reject others that result in conflicting or implausible meanings. This part of the study investigated whether BERT models in English contain information on the selectional preferences of words, by examining the probability it assigns to the dependent word given the presence of its head word in a sentence. These probabilities were compared to human annotations. Results show that there is no strong positive or negative correlation between human judgments and model probabilities in any syntactic relation, but certain head words have a strong correlation, and masking all words but the head word yields the most positive correlations in most scenarios.Lexical aspect is a verb feature that describes how an action, event, or state of a verb is situated in time regardless of verb tense. We explored, with two rounds of experiments, whether the models can identify and learn telicity and duration. We performed quantitative analyses with pretrained and finetuned models, and qualitative analyses to observe the models’ behavior in challenging cases. Experiments were carried out in English and French. Results show that the models capture information on telicity and duration in their vectors, but are biased concerning verb tense and word order.The final experiment examines the models’ capacities for identifying and learning attributive adjective position in French. Even though these models are insensitive to permutated word order by design, we observed that the finetuned models could learn and select the correct position of the adjective. However, this is attributed to finetuning rather than knowledge learned during pretraining. Comparing the finetuned models to native speakers, we notice that the models favor context and global syntactic roles, and are weaker with complex structures and fixed expressions.To summarize our findings, contextual word embeddings are very successful, but results are irregular. The models assign high probabilities to frequent tokens, but cannot create classes or clusters of word embeddings based on content. Verb embeddings can capture important syntactic-semantic information, but adjectives do not have a transformative influence. The models show sensitivity to syntax and learn rudimentary syntactic patterns. Semantically, the models rely on frequency and surface-level features, even when the context suggests otherwise.

Les plongements lexicaux basés sur des Transformers, également connus comme modèles de langage grands, sont largement utilisés dans les applications NLP, surpassant les méthodes de statistique et de réseaux neuronaux. Cependant, le succès quantitatif dans les tâches de NLP ne garantit pas une maîtrise complète du langage humain.Cette thèse étudie les capacités linguistiques et les limites des plongements lexicaux contextuels basés sur Transformers, avec des expériences sur des phénomènes syntactico-sémantiques complexes. La question principale est la suivante: même si les plongements lexicaux peuvent capturer suffisamment d'informations pour être compétents dans des tâches linguistiques complexes, leurs succès sont-ils dus à une véritable compréhension des relations et des hiérarchies entre les mots ou à une répétition de schémas de langue? Nous avons sélectionné des caractéristiques linguistiques en anglais et en français qui sont comprises par les locuteurs natifs ayant des compétences syntaxico-sémantiques matures, mais qui sont traditionnellement difficiles à définir avec des règles linguistiques.La préférence sélective est la tendance d'un prédicat à favoriser certains arguments dans un certain contexte linguistique et à en rejeter d'autres qui aboutissent à des significations contradictoires ou peu plausibles. Cette partie de l'étude a examiné si les modèles BERT en anglais contiennent des informations sur les préférences sélectives, en examinant la probabilité qu'ils attribuent au mot dépendant compte tenu de la présence de son mot principal dans une phrase. Ces probabilités ont été comparées aux annotations humaines. Les résultats montrent qu'il n'y a pas de forte corrélation entre les jugements humains et les probabilités du modèle dans n'importe quelle relation syntaxique, mais certains mots de tête ont une forte corrélation, et le masquage de tous les mots sauf le mot de tête produit les corrélations les plus positives.L'aspect lexical est une caractéristique du verbe qui décrit comment une action, un événement ou un état d'un verbe est situé dans le temps, indépendamment du temps du verbe. Nous avons exploré, avec deux séries d'expériences, si les modèles peuvent identifier et apprendre la télicité et la durée. Nous avons effectué des analyses quantitatives avec des modèles pré-entraînés et affinés, ainsi que des analyses qualitatives pour observer le comportement des modèles dans des cas difficiles. Les expériences ont été menées en anglais et en français. Les résultats montrent que les modèles capturent l'information sur la télicité et la durée dans leurs vecteurs, mais qu'ils sont biaisés en ce qui concerne le temps du verbe et l'ordre des mots.La dernière expérience examine les capacités des modèles à identifier et apprendre la position des adjectifs attributifs en français. Bien que ces modèles pré-entraînés soient insensibles à l'ordre des mots permutés, nous avons observé que les modèles affinés pouvaient apprendre et sélectionner la position correcte de l'adjectif. En comparant les modèles aux locuteurs natifs, on remarque que les modèles favorisent le contexte et les rôles syntaxiques globaux, et qu'ils sont plus faibles avec les structures complexes et les expressions fixes.Pour résumer, les plongements lexicaux sont très efficaces, mais les résultats sont irréguliers. Les modèles attribuent des probabilités élevées aux tokens fréquents, mais ne peuvent pas créer de classes ou de groupes de mots selon le contenu. Les plongements de verbes peuvent capturer des informations syntactico-sémantiques importantes, mais les adjectifs n'ont pas d'influence. Les modèles sont sensibles à la syntaxe et apprennent des schémas syntaxiques rudimentaires. Sur le plan sémantique, les modèles s'appuient sur des caractéristiques de fréquence et de surface, même lorsque le contexte suggère le contraire.

What do you know, BERT ? Exploring the linguistic competencies of Transformer-based contextual word embeddings

Qu'est-ce que tu sais, BERT ? Explorer les compétences linguistiques des plongements lexicaux contextuels basés sur Transformers

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager