Imagine a chapter from a Stephen King book coming out of an insurer’s bot!

“Producers of LLMs (Large Language Models) are demanding an exemption from copyright laws. This has become a hot topic in the world of generative AI as major companies such as OpenAI and Meta are being sued for not respecting the rights of authors whose books or press articles are used to train their models.”

A French version of this post is available here

The problem is that it’s not just a question of training material (it has long been accepted, for example, that you can crawl websites to create an index of sites in a search engine without infringing copyright since you don’t ultimately make this content available). We’re talking about the outright restitution of non-free content in its entirety, as demonstrated, for example, by the New York TImes’ recent lawsuit against OpenAI.

The current proceedings reveal that LLMs used as simple language models or in generative chat mode make it possible to extract the literal content of texts used for training and that some of these texts are not free of rights and have been stolen. How far can LLM providers take precautions to prevent what has hitherto been considered an illegal infringement of intellectual property rights?

Front image of this post generated using Stable diffusion, with the prompt 'a greedy businessman looking like mark zuckenberg stole a book in a computer shop'

Do LLMs have a memory of their training data?

To fully understand what’s at stake and how it all works, let’s look back at the history of the term generative model: generative models are not an invention made possible by deep learning. They are much older: they were first presented in the 1950s by Claude Shannon in his Mathematical Theory of Communication.

As taught at universities in the 90s and beyond, a generative model was understood to be a probabilistic modeling of the symbols of a language (probability of n successive symbols or n-grams) as described by Shannon in his theory. An n-gram language model applies to any type of symbol making up a vocabulary: human DNA (with its four letters GATC) can be modeled very well in n-grams. This type of model is called generative because it is theoretically capable of representing all the sequences of a symbolic language, even if they are infinite, as is the case with human language (in practice, this is not entirely accurate, due to so-called non-vocabulary words, but that’s a subject for another day).

This means that, in theory, an n-gram model would be capable today of generating a book that would only be written in a few years (which defies imagination, doesn’t it?).

Google’s n-grams viewer is online, allowing you to track the use of a text sequence over time. In particular, it shows that the term Large Language Model didn’t exist until the 2010s ! https://books.google.com/ngrams/graph?content=language+model&year_start=1800&year_end=2019&corpus=en-2009&smoothing=3

In this way, all existing or future writings of the French language can be represented by an n-gram model of the successive words of this language, provided that the learning corpus is sufficiently large. The best-known n-gram models are those published by Google (2000s), calculated up to 5 grams (1,2,3,4, and 5 consecutive words) from web texts and used to boost its search engine performance. Before Google’s model, IBM’s first probabilistic machine translation system (late 90s) also used an n-gram language model.

Mor about n-grams models in this chapter of Pr Jurafsky book https://web.stanford.edu/~jurafsky/slp3/3.pdf

An important point for a better understanding of the rest of this story is that it is not possible, by any programmatic means, to use a language model to reconstruct all or part of the corpus of documents on which the language model has been calculated. The n-grams language model has no memory. and combinatorial explosions and the absence of any semantics in sequences of words modelized make the experiment of extracting memory from an n-gram model illusory (I’ve tried and consumed a lot of electricity to do so without success, some experiments are conducted here). This is an essential point for what follows, as many analysts have recently concluded that an LLM (which is a generative language model, but a very different one from n-gram models) can’t memorize and therefore render one of the documents on which it was learned, as claimed by the NYT in its lawsuit against OpenAI. We’ll see later that this reasoning is false, and that the opposite can be demonstrated and even explained.

The NYT's lawsuit against OpenAI shows that it is possible to reproduce copyrighted articles in extenso with the right prompt or text sequence. “Defendants seek to free-ride on The Times’s massive investment in its journalism,” the complaint says, accusing OpenAI and Microsoft of “using The Times’s content without payment to create products that substitute for The Times and steal audiences away from it.” https://www.nytimes.com/2023/12/27/business/media/new-york-times-open-ai-microsoft-lawsuit.html
One of the examples provided by the NYT in its lawsuit shows how with the first text sequence submitted to GPT-4, the model returns as a sequel to the exact article. The NYT explains in its lawsuit how difficult it was to finalize this article to justify its value. Here, the NYT proves that GPT-4 can memorize content. Document available here https://nytco-assets.nytimes.com/2023/12/NYT_Complaint_Dec2023.pdf

When the LLM regurgitates the text on which it was trained !

The proof came in the form of multiple legal proceedings: suspecting that their intellectual property had been used to train LLMs without their authorization, rights owners sought to reconstruct their writings by questioning LLMs directly or via generative chats, asking them questions. And surprise: they succeeded!

While the three authors suing Meta don’t demonstrate that their works can be reconstructed from LLAMA (they just show that LLAMA is capable of producing very detailed summaries of their works), the NYT’s lawsuit does show hundreds of articles reproduced in extenso with GPT and ChatGPT, by asking the right question. As for LLAMA, the demonstration provided was enough to force META to admit that the company had used the Books3 corpus. A corpus that interests us in more ways than one, since it is a pirate digital collection of books still under copyright (which pushes the questioning of the morality of the practice even further, since the use of stolen material is also theft).

About the Books3 data

It’s been a long time since reverse engineering allowed us to know that books – whether or not from Books3 – had been used to train generative models.

As far back as December 2022, my research group identified a prompt for reconstructing an entire Harry Potter book, simply by requesting its paragraphs one after the other. The example below, taken from a book in the public domain (La peste by A. Camus), shows that this prompt is still possible:

On the other hand, when it comes to books that are not yet in the public domain, OpenAI has added filters that no longer render excerpts of the text as shown below (although this example was perfectly functional in December 2022):

Completely impossible to obtain a copyrighted extract? Not really, OpenAI seems to have forgotten that its model is multilingual (something that Silicon Valley engineers consistently neglect, to the great benefit of reverse engineering). The same question asked in French still produced (on January 17, 2024) an extract from the book in its French version:

In light of these examples, the argument that LLMs do not memorize original documents (which is true) and therefore cannot infringe copyright falls completely flat. Without memorization, LLMs can restore all or part of their training data.

In fact, with their thousands of billions of parameters, when unfiltered, generative models from the LLMs family can regenerate original texts down to the last word, as demonstrated here (and in this article by Nasr, Milad et al. “Scalable Extraction of Training Data from (Production) Language Models.” https://doi.org/10.48550/arXiv.2311.17035.)!

How can this be explained if LLMs don’t memorize documents? As it happens, these models are now so large that they act as a data compressor during the training phase, data that can then be decompressed if we can find the right prompt, which then acts as a decoding key.

In conclusion, all these legal proceedings have an additional advantage: thanks to them, we come to know more and more about the data used to train generative models such as LLAMA Mixtral or GPT. Books3 is one example. The New York Times and all its archives, or ComonCrawl. Wikipedia corpora, freely available since the very beginning of the encyclopedia’s existence, are also used (which explains Google Bard’s understanding of Bengali and not the spontaneous generation of language – as Sundar Pinchai seemed to believe…). These data are not the only ones, as many more or less obscure corpora are being added: the existence of emails to train ChatGPT has been demonstrated, probably mathematical resources, and specialized MCQs. We know that Axel Springer, the media giant, has a content-use agreement (Politico and Business Insider) with OpenAI.

Do we need to allow exceptions to authors’ right to let tech majors train their models?

As we have seen, it is possible to reproduce an original text used to train LLMs: we showed this in this post, researchers have demonstrated it, and the New York Times lawsuit against Open AI proves it once again. In the face of this evidence, is the use of copyrighted data, whether obtained by legal means (crawling) or illegal means (the Books3 corpus), acceptable, and should it be subject to an exception, as the web behemoths are claiming with all the lobbying resources at their disposal?

OpenAI has openly declared that training AI models without using copyrighted material is “impossible”, arguing that judges and courts should reject compensation suits brought by rights holders.

For its part, Meta acknowledged that it had used parts of the Books3 dataset, but argued that its use of copyrighted works to train LLMs did not require “consent, credit or compensation“. The company refutes the plaintiffs’ claims of “alleged” copyright infringement, asserting that any unauthorized copying of copyrighted works in Books3 should be considered fair use.

One imagines that both Méta and OpenAI, if they saw data from their commercial applications (Facebook’s advertising files, for example, or the source code of ChatGPT for OpenAI) fall into the public domain following a hack (like the authors of the books included in Books3) would be quite happy for it to be reused by competitors? We know the answer, of course.

This story smacks of déjà vu: in the late 90s, Internet service providers claimed the right not to be subject to the law for the content they carried. By extension, social media (notably Facebook, Twitter, and YouTube) demanded this status and got it. In most OECD countries, they are now considered to be content hosts, and therefore exempt from the constraints imposed on the press. This impunity has enabled them to siphon off revenues from the media industry without ever submitting to the constraints of quality and verification of the said media. The overabundance of online disinformation is one of the consequences of this permissive choice made by legislators over twenty years ago.

After the press laws, the tech majors are now attacking authors’ rights. Not hesitating to use the fruits of hacking to create commercial products, in complete illegality. However, the work of an author of the written word, introduced into an LLM, produces value, and nothing justifies this value being captured without compensation. And it is certainly possible to make this technology prosper, without asking society to destroy an edifice of protection for authors patiently created over the past three centuries.

We would also add that the legal instability that is emerging around LLMs and their training data will not make their adoption any easier in large organizations, whose legal counsel will not fail to point out the legal risks they pose.

Can you imagine a chapter from a Stephen King book coming out of an insurer’s bot?

Imaginez un chapitre d’un livre de Stephen King qui sortirait du bot d’un assureur !

Les producteurs de LLM demandent à être exonérés du droit d’auteur ! C’est le nouveau sujet de l’IA générative: poursuivis de tous côté, les majors du net, OpenAI et Meta en tête, revendiquent de ne pas avoir à respecter les droits des auteurs d’ouvrages ou d’articles de presse qu’ils utilisent pour entraîner leurs modèles.

Une version anglaise de ce post est disponible ici

Le problème est qu’il ne s’agit pas uniquement d’une question de matériel d’entraînement (on a admis par exemple depuis longtemps, qu’on peut crawler des sites web pour créer un index de sites dans un engin de recherche sans violer le droit d’auteur puisqu’on ne rends pas in fine ce contenu disponible). Il s’agit ici de s’autoriser la restitution pure et simple de contenus non libres dans leur intégralité, tels que l’a démontré par exemple la récente poursuite du New York Times contre OpenAI.

Ce que révèlent les procédures en cours, c’est que les LLM utilisés comme simple modèle de langue ou en mode chat génératif ont la mémoire de tout ou partie de leurs données d’apprentissage, permettent de ressortir le contenu littéral des textes utilisés pour l’entraînement, et que certains de ces textes ne sont pas libres de droits et ont été volés. Jusqu’où va la responsabilité d’un fournisseur de LLM dans les précautions qu’il doit prendre pour empêcher que ce qui était jusqu’ici considéré comme une atteinte illégale à la propriété intellectuelle puisse se produire ?

Illustration de cet article : image générée avec Stable diffusion, en utilisant le prompt 'a greedy businessman looking like mark zuckenberg stole a book in a computer shop'

Un modèle de langue génératif peut-il recréer le texte sur lequel il a été appris ?

Pour bien comprendre les enjeux et les rouages sous-jacents, revenons un instant sur l’histoire du terme modèle génératif : les modèles génératifs ne sont pas une invention rendue possible par le deep learning. Ils sont bien plus anciens : ils ont été présentés pour la première fois dans les années 50 par Claude Shannon dans sa Théorie mathématique de la communication.

Tel qu’enseigné à l’université dans les années 90 et suivantes, on entendait par modèle génératif, une modélisation probabiliste des symboles d’un langage (probabilité de n symboles successifs ou n-grams) tel que décrite par Shannon dans sa théorie . Un modèle de langue n-gramme s’applique à tout type de symbole composant un vocabulaire : l’ADN humain (avec ses quatre lettres GATC) se modélise très bien en n-grammes. On qualifie ce type de modèle de génératif par ce qu’il est théoriquement capable de représenter la totalité des séquences d’un langage symbolique, y compris si elle est infinie, comme dans le langage humain (en pratique ce n’est pas totalement exact en raison de ce qu’on appelle les mots hors vocabulaire, mais ce sujet sera pour un autre jour) .

Le visualiseur de n-grammes de Google est en ligne et permet par exemple de suivre l’usage d’une séquence de texte à travers le temps. Il permet notamment de constater que le terme Large Language Model n’existe pas avant les années 2010 ! https://books.google.com/ngrams/graph?content=language+model&year_start=1800&year_end=2019&corpus=en-2009&smoothing=3

Ainsi, tous les écrits existants ou à venir de la langue francaise peuvent être représentés par un modèle n-grammes des mots successifs de cette langue, pour peux que le corpus d’apprentissage soit suffisamment vaste. Les modèles n-grammes les plus connus sont ceux publiés par Google (années 2000), calculés jusqu’au 5 grammes (1,2,3,4, et 5 mots consécutifs) d’après les textes du web et utilisés pour augmenter la performance de son engin de recherche. Avant le modèle de Google, le premier système probabiliste de traduction automatique conçu par IBM (fin des années 90) utilisait lui aussi un modèle de langue n-gramme.

Pour en apprendre plus sur les modèles n-grammes, lire ce chapitre de livre du Pr Jurafsky https://web.stanford.edu/~jurafsky/slp3/3.pdf

Point important pour la suite de cette étude: il est impossible par un moyen programmatique quelconque en utilisant ce modèle de langue de reconstituer tout ou partie du corpus documentaire sur lequel le modèle de langue n-grammes été calculé. Le modèle de langue n’a pas de mémoire. Les explosions combinatoires et l’absence de notion de sémantique dans une suites de mots et leur probabilité d’apparition rendent l’expérience à ce jour illusoire (j’ai essayé et consommé beaucoup d’électricité pour y parvenir, quelques expériences sont menée ici). C’est un point essentiel pour la suite car partant de ce principe, de nombreux analystes ont conclus récemment qu’il était impossible qu’un LLM (qui est un modèle de langue génératif mais très différent des modèles n-grammes) puisse mémoriser et donc restituer un des documents sur lequel il a été appris, tel que revendiqué par le New York Time (NYT) dans sa poursuite contre OpenAI. Nous verrons plus loin que ce raisonnement est faux, que le contraire peut être démontré et même expliqué.

La poursuite du NYT contre OpenAI et Microsoft montre qu'il est possible de reproduire in extenso des articles sous droits d'auteur avec le bon prompt ou la bonne séquence de texte. “Defendants seek to free-ride on The Times’s massive investment in its journalism,” the complaint says, accusing OpenAI and Microsoft of “using The Times’s content without payment to create products that substitute for The Times and steal audiences away from it.” https://www.nytimes.com/2023/12/27/business/media/new-york-times-open-ai-microsoft-lawsuit.html
Un des exemples fournis par le NYT dans sa poursuite qui montre comment avec la première séquence de texte soumise à GPT-4, le modèle retourne comme suite l’exact article. Le NYT explique dans sa poursuite à quel point cet article à été difficile à finaliser pour justifier sa valeur. Le NYT prouve ici que GPT-4 peut mémoriser un contenu. Document accessible ici https://nytco-assets.nytimes.com/2023/12/NYT_Complaint_Dec2023.pdf

Quand le LLM régurgite le texte sur lequel il a été appris !

Et la démonstration est venue de multiple procédure judiciaires : soupçonnant que leur propriété intellectuelle avait été utilisée pour entraîner des LLM sans leur autorisation, des propriétaires de droits ont cherché à reconstituer leurs écrits en interrogeant les LLM directement ou via les chats génératifs, en leur posant des questions. Et surprise : ils y sont parvenus !

Si les trois auteurs qui poursuivent Meta ne démontrent pas qu’on peut reconstituer leurs ouvrages depuis LLAMA (ils montrent juste que LLAMA est capable de produire des résumés très détaillés de leurs œuvres), on peut en revanche retrouver dans la poursuite du NYT des centaines d’articles reproduits in extenso avec GPT et ChatGPT, en lui posant la bonne question. Et pour ce qui est LLAMA, la démonstration des auteurs plaignants a suffi pour forcer Meta à admettre que l’entreprise avait utilisé le corpus Books3. Un corpus qui nous intéresse à plus d’un titre puisqu’il s’agit d’un recueil digital pirate de livres encore sous droits d’auteurs (ce qui pousse encore plus loin le questionnement sur la moralité de la pratique puisque l’utilisation d’un matériau volé est aussi du vol).

Qu'est ce que Books3 ?
Books3 est un ensemble de données contenant 196 640 livres au format texte non libres de droits rédigés par des auteurs tels que Stephen King, Margaret Atwood et Zadie Smith, utilisés pour entraîner des modèles de langage. Assemblé en 2020 par Shawn Presser, défenseur de l'open source, il est hébergé par The Eye, un site Web « dédié à l'archivage et à la diffusion d'informations accessibles au public ».

Le cas de Books3

Il y a très longtemps que l’ingénierie inverse nous permet de savoir que des livres – issus ou non de Books3 – ont été utilisés pour entraîner les modèles génératifs.

Dès le mois de décembre 2022, nous avions identifié dans mon groupe de recherche un prompt permettant de reconstituer un livre entier de Harry Potter, simplement en demandant ses paragraphes les uns après les autres. On peut voir dans l’exemple ci dessous, pris sur un livre dans le domaine public (La peste de A. Camus) que cette possibilité de prompt demeure :

En revanche, dès qu’il s’agit d’un livre qui n’est pas encore dans le domaine public, OpenAI a manifestement ajouté des filtres qui ne permettent plus de restituer les extraits du texte comme on le voit si dessous (alors que cette exemple était parfaitement fonctionnel en décembre 2022) :

Complètement impossible d’obtenir un extrait sous copyright ? Pas vraiment, OpenAI semble avoir oublié que son modèle était multilingue (quelque chose que les ingénieurs de la Silicon Valley négligent avec constance pour le plus grand profit de l’ingénierie inverse). La même question posée en français produit toujours le 17 janvier 2024) un extrait du livre dans sa version française :

Ajoutons à la lumière de ces exemples que l’argument de ceux qui voudraient que les LLM ne mémorisent pas les documents originaux (ce qui est vrai) et donc qu’ils ne sauraient enfreindre le droit d’auteur tombe complètement à l’eau. Sans mémorisation, les LLM sont bel et bien en mesure de restituer tout ou partie de leurs données d’apprentissage.

En réalité avec leurs milliers de milliards de paramètres, lorsqu’ils ne sont pas filtrés, les modèles génératifs de la famille des LLM permettent bien de régénérer au mot près des textes originaux comme la démonstration en est faite ici (et par cet article de Nasr, Milad et al. “Scalable Extraction of Training Data from (Production) Language Models.https://doi.org/10.48550/arXiv.2311.17035.) !

Comment l’expliquer si les LLM ne mémorisent pas les documents ? En l’occurrence, ces modèles sont aujourd’hui si grands qu’ils agissent apparemment comme un compresseur de données lors de la phase l’entraînement, données qu’il est ensuite possible de décompresser pour peux que nous trouvions le bon prompt (ou la bonne séquence) qui agit alors comme une clé de décodage. On ne connaît pas encore exactement les mécanismes de la mémorisation des données d’entraînement par les LLM, mais il ne fait plus aucun doute aujourd’hui que cette capacité existe pour un pourcentage non négligeable de ces données (des expériences commencent à apparaître).

Mentionnons pour conclure sur ce point que toutes les procédures judiciaires que nous venons de mentionner ont un avantage supplémentaire: grâce à elles, on finit par en savoir de plus en plus sur les données utilisées pour entraîner les modèles génératifs tels que LLAMA Mixtral ou GPT. Books3 est un exemple. le New York Times et toutes ses archives, ou encore ComonCrawl en sont d’autres. Les corpus de Wikipedia, disponible librement depuis les débuts de l’existence de l’encyclopédie sont eux aussi utilisés (ce qui explique la compréhension du Bengali par Google Bard et non la génération spontanée du langage – comme semblait le croire Sundar Pinchai …). Ces données ne sont pas les seules, de très nombreux corpus plus ou moins obscurs sont assurément ajoutés: on a démontré l’existence d’emails pour entraîner ChatGPT, probablement des ressources mathématiques, des QCM spécialisés. On sait qu’Axel Springer, mastodonte de la presse, a un accord de réutilisation de contenu (Politico et Business Insider) avec OpenAI.

L’exception au droit d’auteur pour les LLMs est elle une bonne idée ?

On l’a vu, il est possible de reproduire un texte original utilisé pour entraîner un LLM : nous l’avons montré dans ce post, des chercheurs l’ont démontré, la poursuite du New York Times contre Open AI le prouve à nouveau. Face à cette évidence, l’utilisation de données sous droits d’auteur, qu’elles soient obtenues par des moyens légaux (le crawl) ou illégaux (le corpus Books3) est elle acceptable et devrait elle faire l’objet d’une exception, comme le revendiquent avec tous les moyens de lobying dont ils disposent les mastodontes du web ?

OpenAI a ouvertement déclaré que la formation de modèles d’IA sans utiliser de matériel protégé par le droit d’auteur est « impossible », arguant que les juges et les tribunaux devraient rejeter les poursuites en indemnisation intentées par les titulaires de droits.

De son côté, Meta a reconnu avoir utilisé certaines parties de l’ensemble de données Books3, mais a fait valoir que son utilisation d’œuvres protégées par le droit d’auteur pour former des LLM ne nécessitait pas « de consentement, de crédit ou de compensation ». La société réfute les allégations de violation des droits d’auteur « présumés » des plaignants, affirmant que toute copie non autorisée d’œuvres protégées par le droit d’auteur dans Books3 devrait être considérée comme un usage loyal.

On imagine que tant Méta que OpenAI, s’ils voyaient les données de leurs applications commerciales (les fichiers publicitaires de Facebook par exemple ou le code source de ChatGPT pour OpenAI) tomber dans le domaine public suite à un hack (comme les auteurs des livres inclus dans Books3) seraient tout à fait d’accord pour qu’il soit réutilisé par des compétiteurs ? On connaît évidemment la réponse.

Cette histoire a un goût de déjà vu : à la fin des années 90, les fournisseurs d’accès Internet ont revendiqués le droit de ne pas être soumis à la loi pour les contenus qu’ils véhiculaient. Par extension, les médias sociaux (Facebook, Twitter, Youtube notamment) ont demandés eux aussi à bénéficier de ce statut, ce qu’ils ont obtenus. Dans la plupart des pays de l’OCDE, ils sont ainsi considérés comme des hébergeurs de contenu et à ce titre exonérés des contraintes qui pèsent sur la presse (notamment en matière de diffamation). Cette impunité leur a permis de littéralement siphoner les revenus de l’industrie des médias sans jamais se soumettre aux contraintes de qualité et de vérification des dits médias. La surabondance de la désinformation en ligne est l’une des conséquences de ce choix permissif fait par les législateurs il y a plus de vingt ans.

Après les lois sur la presse, c’est au droit des auteurs que les majors de la tech s’attaquent. N’hésitant pas à utiliser le fruit du hacking pour créer des produits commerciaux, en toute illégalité. Le travail d’un auteur de l’écrit, introduit dans un LLMs, produit pourtant de la valeur, et rien ne justifie que cette valeur soit captée sans contrepartie. Et il est certainement possible de faire prospérer cette technologie, sans pour autant demander à la société de détruire un édifice de protection des auteurs patiemment créer sur les trois derniers siècles. On ajoutera aussi que l’instabilité juridique qui se dessine autour des LLM et de leur données d’entraînement ne va pas faciliter leur adoption dans les grandes organisations dont les conseils ne manqueront pas de rappeler les risques légaux qu’ils posent.

Vous imaginez un chapitre d’un livre de Stephen King qui sortirait du bot d’un assureur ?

Are general purpose generative models a good fit for financial industry applications ?

Coups sur coups, nous avons vu apparaître les modèles génératifs sur mesure proposés par Bloomberg (BloombergGPT, et JP Morgan (DocLLM). La question s’est alors légitimement posée de savoir pourquoi ces entreprises du monde de la finance s’étaient dirigées vers la création de leurs propre modèles génératifs plutôt que d’utiliser les versions universelles disponibles (ChatGPT ou LLAMA par exemple) et si ce choix est pertinent.

In 2023, many tailor-made generative models emerged. The idea behind developing such models was simple: universal models like GPT are trained on data covering a wide range of topics (Wikipedia, web crawl, public domain books, etc.), and they produce many errors when applied to NLP tasks required in specific fields like finance. So, by training a language model more specifically with topic-oriented data, we can reduce errors and increase performance.

This is an interesting perspective – and a very costly one – as training LLMs is highly expensive: we do not speak here about fine-tuning the model but about the model trained from scratch. Two actors of US finance made the experiment. Bloomberg with BloombergGPT, and JP Morgan with DocLLM. Is this choice a valid one? Let’s investigate first the two models and then read a paper that made comparative experiments with one of those models.

The new finance-specialized models

BloombergGPT (Wu et al., 2023) is a language model with 50 billion parameters. It is trained using a mixed approach to cater to the financial industry’s diverse tasks. The dataset is made of 363 billion tokens based on Bloomberg’s extensive data sources, augmented with 345 billion tokens from general-purpose datasets. In the original paper, the model is evaluated on standard LLM benchmarks, open financial benchmarks, and Bloomberg-internal benchmarks (see the announcement here). We will see later that while the BloombergGPT team claims that the model significantly outperforms existing models in financial tasks and performs on par or even better in some general NLP benchmarks it is not so simple. BloombergGPT when launched, was tested on specialized LLMs (GPT-NeoX, OPT, BLOOM, and PALM) but not on universal models like GPT. We go deeper on this later.

DocLLM from JP Morgan is less ambitious or more focused on document analysis-related tasks: information extraction, natural language inference, visual question-answering, and document classification (while BloombergGPT is intended to work also with question-answering tasks). DocLLM is a lightweight extension to traditional large language models dedicated to reasoning over visual documents, considering both textual semantics and spatial layout. The model differs from existing multimodal LLMs by avoiding expensive image encoders and focusing exclusively on bounding box information to incorporate the spatial layout structure. The pre-trained model is fine-tuned using a large-scale instruction dataset, covering four core document intelligence tasks. The authors claim that their solution outperforms state-of-the-art LLMs on 14 out of 16 datasets across all tasks, and generalizes well to 4 out of 5 previously unseen datasets.

As we can see, the objectives of those two models are very different. One intends to outperform ChatGPT or LLAMA (and any universal models) on financial NLP tasks, the other is a specialized tool to question document content. A common point of those two models: they are not public and are intended to be used internally by their organization. As a consequence, it is impossible to verify the test measures provided by Bloomberg and JP Morgan or make new experiments. However, it is still possible to compare the performances of BloombergGPT evaluated with standard public metrics. That’s the objective of the paper we will detail now.

To write this post we used / pour écrire cet article, nous avons consulté:
Li, Xianzhi, Samuel Chan, Xiaodan Zhu, Yulong Pei, Zhiqiang Ma, Xiaomo Liu, and Sameena Shah. “Are ChatGPT and GPT-4 General-Purpose Solvers for Financial Text Analytics? A Study on Several Typical Tasks.” In Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing: Industry Track, edited by Mingxuan Wang and Imed Zitouni, 408–22. Singapore: Association for Computational Linguistics, 2023. https://doi.org/10.18653/v1/2023.emnlp-industry.39.

Wang, Dongsheng, Natraj Raman, Mathieu Sibue, Zhiqiang Ma, Petr Babkin, Simerjot Kaur, Yulong Pei, Armineh Nourbakhsh, and Xiaomo Liu. “DocLLM: A Layout-Aware Generative Language Model for Multimodal Document Understanding.” arXiv, December 31, 2023. https://doi.org/10.48550/arXiv.2401.00908.

Wu, Shijie, Ozan Irsoy, Steven Lu, Vadim Dabravolski, Mark Dredze, Sebastian Gehrmann, Prabhanjan Kambadur, David Rosenberg, and Gideon Mann. “BloombergGPT: A Large Language Model for Finance.” arXiv, December 21, 2023. https://doi.org/10.48550/arXiv.2303.17564.

A first general study of generic generative models applied to finance

In the EMNLP paper Are ChatGPT and GPT-4 General-Purpose Solvers for Financial Text Analytics? A study on Several Typical Tasks (published in December 2023), the authors conduct numerous experiments to try to give answers to the following questions:

The most recent large language models (LLMs) such as ChatGPT and GPT-4 have shown exceptional capabilities of generalist models, achieving state-of-the-art performance on a wide range of NLP tasks with little or no adaptation. How effective are such models in the financial domain? Understanding this basic question would have a significant impact on many downstream financial analytical tasks.

This is precisely the question we would like to answer about the specialized LLMs: is it worth it for an organization to invest the money required to build and train such a model? The potential of generative AI in finance is huge, but can only be delivered if the applications are viable. Many in the finance industry who have tried yet to apply generative AI for summarisation, decision help, document processing, question answering, or information retrieval have faced some headwinds in the form of unstable applications (you can’t maintain the performance of a given task), very low application performances (sometimes the tasks are properly handled but for on only 20% of the requests, the rest is ignored or wrong) and high error rates (hallucinations notably). Performance is key in a financial context: in a highly regulated environment, giving wrong advice, erroneous answers, or bad transcription of a document to customers or employees can have unacceptable (and costly) consequences.

What is interesting in this EMNLP paper is that the standard experiments conducted compare GPT and ChatGPT (including version 4) with BloombergGPT on five NLP tasks (summarized in the table below). Sentiment analysis, classification, named entity recognition (NER), question answering, and relation extraction. A set of historical NLP tasks (investigated by labs for more than 30 years now) that represents a big chunk of finance industry NLP needs. And the results are… interesting!

The test corpora used are classic of the domain. For sentiment analysis, Financial Phrase Bank, a typical three-scale (positive, negative, and neutral) sentiment classification task curated from financial news by 5-8 annotators (Malo et al., 2013), FiQA Sentiment Analysis, a dataset used to extend the task complexity to detect aspect-based sentiments from news and microblog in the financial domain, and TweetFinSent. Pei et al. (2022) ad dataset based on Twitter to capture retail investors’ moods regarding a specific stock ticker.

For headline classification, the authors use the news headlines classification dataset (Sinha and Khandait, 2020) from the FLUE benchmark (Shah et al., 2022). This classification task targets to classify commodity news headlines into one of the six categories like “Price Up” and “Price Down”. We could challenge this choice as the classification task in the finance industry is not only related to prices from a headline but can be much more diverse than that.

The NER task is conducted with NER FIN3 datasets, created by Salinas Alvarado et al. (2015) using financial agreements from SEC and containing four named entity types: PER (person), LOC (location), ORG (organizations), and MISC. Following the setting used in BloombergGPT, the authors remove all entities with the MISC label due to its ambiguity. Again this is a very restrictive NER test set that does not necessarily comply with finance industry needs: document information extraction in the finance and insurance industry for example involves events, product names, procedures names.

On relation extraction, the authors use the REFinD data set. This specialized financial relation extraction dataset is constructed from raw text sourced from various 10-X reports (including but not limited to 10-K and 10-Q) of publicly traded companies. These reports were obtained from the website of the U.S. Securities and Exchange Commission (SEC).

So the test sets chosen are not always the most recent, but they have one crucial advantage: they allow us to compare the real performances of universal models like ChatGPT and specialized models like Bloomberg by re-using the experiments results already published by Bloomberg. In other words, the author found a (nice) way to validate the real usefulness of BloombergGPT without having access to it. And the results are astonishing!

Experiments and results

On the sentiment analysis task, GPT 4 strongly outperforms BloombergGPT. Finbert (a BERT like LLM fine-tuned for finance) also. With a gap of more than 30 points in the F1 Score, there is no advantage to using BloombergGPT on opinion mining evaluation on the Financial PhraseBank dataset.

The results of the FiQA sentiment analysis are better but still, BloombergGPT underperforms GPT 4 (by over 10 points on the weighted F1 score).

On the headline classification task BloombergGPT underperforms ChatGPT 4 by 2 points using the F1 score, but, BERT alone overperforms both of them by more than 10 points! This is fascinating as BERT is now an old language model (published in 2018).

On NER recognition – a crucial task to automate some complex document digitalization tasks in multiple industries ( NER is used for example to recognize the name of a person or an address from a scanned document, and feed a database with it), the results are surprising. The best F1 scores on this task are still those defined by the state of the art of the 2010s, using CRF classifiers! CRF specially trained on the FIN5 data overperform GPT-4 by 26 points, and BloombergGPT by 22 points! There is here a legitimate question for a practitioner on the validity of LLMs usage for the NER tasks.

On the question-answering task, GPT4 outperformed BloombergGPT (and the other models) by more than 30 points.

A general remark: you can see in every above result table (coming from the EMNLP paper) that GPT 4 (the LLM model) overperforms ChatGPT 4 (the generative model) in all experiments. This means that using generative chat models through prompting is not necessarily the best-performing solution for NLP tasks. Something that has been demonstrated with consistency in the recent literature (see for example the systematic study conducted with the help of Royal Bank of Canada scientists below): prompting ChatGPT to extract named entities, relations, or answer questions is not performing as well as building a system the traditional way, using the sole LLM (like GPT or BERT) as a classifier.

A Systematic Study and Comprehensive Evaluation of ChatGPT on Benchmark Datasets
[...] In this paper, we aim to present a thorough evaluation of ChatGPT's performance on diverse academic datasets, covering tasks like question-answering, text summarization, code generation, commonsense reasoning, mathematical problem-solving, machine translation, bias detection, and ethical considerations. Specifically, we evaluate ChatGPT across 140 tasks and analyze 255K responses it generates in these datasets. By providing a thorough assessment of ChatGPT's performance across diverse NLP tasks, this paper sets the stage for a targeted deployment of ChatGPT-like LLMs in real-world applications.
Laskar, Md Tahmid Rahman, M. Saiful Bari, Mizanur Rahman, Md Amran Hossen Bhuiyan, Shafiq Joty, and Jimmy Xiangji Huang. “A Systematic Study and Comprehensive Evaluation of ChatGPT on Benchmark Datasets.” arXiv, July 5, 2023. https://doi.org/10.48550/arXiv.2305.18486.

Conclusions: a difficult and perilous path …

According to all those experiments, it is clear that on many NLP tasks, specialized models like BloombergGPT do not perform as well as universal models like GPT-4. More surprising are the experimental results when they tell us that previous state-of-the-art classifiers (like CRF) or simple language models (like BERT) still outperform generative models on NLP tasks like NER recognition or text classification. What comes from this analysis is that generative models are so new that they are highly complex to tune for specific NLP tasks and not so easy to feed with specific training data to better fit a topic like finance. An interesting finding for future deployments of this technology.