Dr. Kevin Jablonka, Nachwuchsgruppenleiter am Institut für Organische Chemie und Makromolekulare Chemie Quelle: Jens Meyer (Universität Jena)

GPT-3 für die chemische Forschung

Publiziert

Forschende entwickeln schnelles und leicht zu nutzendes Sprachmodell für chemische Aufgaben.

GPT-3, das Sprachmodell hinter dem bekannten KI-System ChatGPT, kann auch in der Chemie eingesetzt werden, um verschiedene wissenschaftliche Aufgaben zu lösen. Das demonstrierte ein Team von Forschenden an der École polytechnique fédérale de Lausanne (EPFL), der Friedrich-Schiller-Universität Jena sowie des Helmholtz-Instituts für Polymere in Energieanwendungen (HIPOLE) Jena. Wie das Team im Fachmagazin «Nature Machine Intelligence» berichtet, umgingen sie hierbei das Problem, dass es in der Chemie oftmals an den benötigten grossen Datenmengen fehlt, die für das Training einer KI benötigt werden.

Kuratierte Fragen und Antworten statt grosser Datenmengen

«Eines von verschiedenen Beispielen, die wir verwendet haben, sind sogenannte lichtempfindliche Schalter», illustriert Kevin Jablonka, Erstautor der Arbeit. «Das sind Moleküle, die ihre Struktur ändern wenn Licht einer bestimmten Wellenlänge auf sie fällt. Diese Art von Molekülen gibt es auch im menschlichen Körper: In unseren Netzhautzellen befindet sich das Molekül Rhodopsin, das auf Licht reagiert und damit letztendlich als chemischer Schalter dient, der optische Signale in Nervenimpulse umwandelt», ergänzt er. «Die Frage, ob und wie ein bislang unbekanntes Molekül durch Licht schaltbar ist, ist also durchaus relevant – etwa wenn es darum geht, Sensoren zu entwickeln», fasst er zusammen. «Aber auch die Frage, ob ein Molekül in Wasser gelöst werden kann, haben wir eingebracht», nennt Jablonka als weiteres Beispiel, «denn gerade bei pharmakologischen Wirkstoffen ist die Wasserlöslichkeit ein wichtiger Faktor, damit die gewünschte Wirkung im Körper entfaltet wird.»

Um ihr GPT-Modell so zu trainieren, dass es diese und andere Fragen beantworten kann, musste die Gruppe jedoch ein grundlegendes Problem lösen: «GPT-3 kennt den grössten Teil der chemischen Fachliteratur nicht», erklärt Jablonka. «Die Antworten, die wir von diesem Modell erhalten, beschränken sich also üblicherweise auf das, was man auch in der Wikipedia finden kann.»

Stattdessen, so erklärt Jablonka weiter, habe die Gruppe GPT-3 mit einem Datensatz aus vergleichsweise wenigen Fragen und Antworten gezielt verbessert. «Wir haben also das Modell mit Fragen gefüttert – etwa nach lichtempfindlichen schaltbaren Molekülen, aber auch zur Löslichkeit bestimmter Moleküle in Wasser und anderen chemischen Aspekten – wobei wir bei unseren ,Lehrbeispielen‘ auch die jeweils zugehörige bekannte Antwort mit angegeben haben», führt er aus. So haben er und sein Team ein Sprachmodell erschaffen, das in der Lage ist, zu verschiedenen chemischen Problemstellungen korrekte Erkenntnisse zu liefern.

Schnell, akkurat und leicht zu benutzen

Anschliessend wurde das Modell getestet. «Die wissenschaftliche Frage nach einem durch Licht schaltbaren Molekül kann etwa so aussehen», verdeutlicht Jablonka: «Was ist die Wellenlänge des pi–pi*-Übergangs von CN1C(/N=N/ C2=CC=CC=C2)=C(C)C=C1C?» Da das Modell textbasiert ist, können keine Strukturformeln angegeben werden, erklärt er. «Aber unser GPT arbeitet gut mit den sogenannten SMILES-Codes für Moleküle, wie im oben genannten Beispiel», sagt er. «Aber auch andere Notationen erkennt es. Dazu gehören auch chemische Namen die der sogenannten IUPAC-Nomenklatur folgen, wie man sie vielleicht noch aus dem Chemie-Unterricht kennt», so Jablonka weiter.

In den Tests löste das Modell verschiedenste chemische Problemstellungen. Hierbei schnitt es oftmals sogar besser ab als ähnliche Modelle, die bisher in der Wissenschaft entwickelt und mit grossen Datenmengen trainiert wurden. «Das Entscheidende aber ist, dass unser GPT so einfach zu bedienen ist wie eine Literaturrecherche, die für viele chemische Probleme funktioniert – etwa zu Stoffeigenschaften wie die Löslichkeit, aber auch thermodynamische und photochemische Eigenschaften wie die Lösungsenthalpie oder die Interaktion mit Licht – und natürlich das chemische Reaktionsvermögen», ergänzt Prof. Dr. Berend Smit von der EPFL Lausanne.

Literatur

Kevin Maik Jablonka, Philippe Schwaller, Andres Ortega-Guerrero, Berend Smit: «Leveraging large language models for predictive chemistry», Nature Machine Intelligence 2023

EVENTS

Pharmapack Paris

Europas führende Veranstaltung für Verpackung und Medikamentenlieferung.

Datum: 22.-23. Januar 2025

Ort: Paris (F)

Empack Schweiz

The Future of Packaging Technology

Datum: 22.-23. Januar 2025

Ort: Zürich (CH)

LOGISTICS & AUTOMATION

Schweizer Fachmesse für Logistik und Transport

Datum: 22.-23. Januar 2025

Ort: Zürich (CH)

Vivaness

Internationale Fachmesse für Naturkosmetik

Datum: 11.-14. Februar 2025

Ort: Nürnberg (D)

ZHAW-IFM Day

Der IFM-Day der ZHAW findet als Begegnungstag für FM-Ausbildung und FM-Praxis statt.

Datum: 07. März 2025

Ort: Wädenswil (CH)

LogiMat

Internationale Fachmesse für Intralogistik

Datum: 11.-13. März 2025

Ort: Stuttgart (D)

Global Industrie

Midest - smart Industries - Industrie - Tolexpo - die weltweit grössten Fachmessen für die Industriezulieferwirtschaft

Datum: 11.-14. März 2025

Ort: Lyon (F)

Additive Manufacturing Forum

Die Entscheider- und Expertenkonferenz bringt das gesamte Wertschöpfungssystem rund um die additive Fertigung zusammen.

Datum: 17.-18. März 2025

Ort: Berlin (D)

Hannover Messe

Transfoming Industry Togheter

Datum: 31. März.-04. April 2025

Ort: Hannover (D)

SENSOR + TEST

Internationale Fachmesse für Sensorik, Mess- und Prüftechnik

Datum: 06.-08. Mai 2025

Ort: Nürnberg (D)

LABVOLUTION

Europäische Fachmesse für innovative Laborausstattung und die Optimierung von Labor-Workflows

Datum: 20.-22. Mai 2025

Ort: Hannover (D)

EPHJ-EPMT-SMT

Internationale Ausstellung für Uhrenindustrie, Mikrotechnologie und Medizinaltechnik

Datum: 03.-06. Juni 2025

Ort: Genf (CH)

CosmeticBusiness

Entdecken Sie innovative Verpackungslösungen für eine nachhaltige Zukunft der Kosmetikindustrie

Datum: 04.-05. Juni 2025

Ort: München (D)

The Pharma Days

Die Pharma Days (TPD) sind eine Veranstaltung unter Ausschluss der Öffentlichkeit, die Zusammenarbeit, Innovation und Geschäftswachstum vorantreiben soll.

Datum: 04.-05. Juni 2025

Ort: Genf (CH)

Automatica

Die Leitmesse für intelligente Automation und Robotik

Datum: 24.-27. Juni 2025

Ort: München (D)

LASER World of PHOTONICS

Weltleitmesse und Kongressfür Komponenten, Systeme und Anwendungen der Photonik

Datum: 24.-27. Juni 2025

Ort: München (D)

SINDEX

Schweizer Messe für industrielle Automatisierung

Datum: 02.-04. September 2025

Ort: Bern (CH)

Ilmac

Fachmesse für Prozess- und Labortechnologie

Datum: 16.-18. September 2025

Ort: Basel (CH)

CMS Berlin

Internationale Leitmesse für Reinigung und Hygiene

Datum: 23.-26. September 2025

Ort: Berlin (D)

POWTECH

Pharma.Manufacturing.Excellence

Datum: 23.-25. September 2025

Ort: Nürnberg (D)

FachPack

Europäische Fachmesse für Verpackung, Technik, Veredelung und Logistik

Datum: 23.-25. September 2025

Ort: Nürnberg (D)

Rehacare

Die REHACARE ist die internationale Fachmesse für Rehabilitation, Prävention, Inklusion und Pflege.

Datum: 17.-20. September 2025

Ort: Düsseldorf (D)

IN.STAND

Die Messe für Instandhaltung und Services

Datum: 21.-22. Oktober 2025

Ort: Stuttgart (D)

A + A

Messe und Kongress für Arbeitsschutz und Arbeitssicherheit

Datum: 04.-07. November 2025

Ort: Düsseldorf (D)

AQUA Suisse

Die Schweizer Fachmesse für kommunales und industrielles Wassermanagement.

Datum: 26.-27. November 2025

Ort: Zürich (CH)

maintenance Schweiz

Schweizer Fachmesse für industrielle Instandhaltung und Facility Management

Datum: 26.-27. November 2025

Ort: Zürich (CH)

Pumps & Valves

Die Fachmesse für industrielle Pumpen, Armaturen & Prozesse

Datum: 26.-27. November 2025

Ort: Zürich (CH)

Swissbau

Führende Plattform der Bau- und Immobilienwirtschaft

Datum: 20.-23. Januar 2026

Ort: Basel (CH)

aqua pro

B2B-Plattform in der Schweiz für Fachkräfte des globalen Wasserkreislaufs

Datum: 04.-06. Februar 2026

Ort: Bulle (CH)

analytica

Weltleitmesse für Labortechnik, Analytik, Biotechnologie und analytica conference

Datum: 24.-27. März 2026

Ort: München (D)

Siams

Die Messe der Produktionsmittel der Mikrotechnik

Datum: 21.-24. April 2026

Ort: Moutier (CH)

Techtextil

Internationale Leitmesse für technische Textilien und Vliesstoffe

Datum: 21.-24. April 2026

Ort: Frankfurt am Main (D)

IFAT

Weltleitmesse für Wasser-, Abwasser-, Abfall- und Rohstoffwirtschaft

Datum: 04.-08. Mai 2026

Ort: München (D)

interpack

Führende Messe für Prozesse und Verpackung

Datum: 07.-13. Mai 2026

Ort: Düsseldorf (D)

ArbeitsSicherheit Schweiz

Fachmesse für Arbeitssicherheit, Gesundheitsschutz und Gesundheitsförderung am Arbeitsplatz

Datum: 20.-21. Mai 2026

Ort: Zürich (CH)

all about automation

Fachmesse für Industrieautomation

Datum: 26.-27. August 2026

Ort: Zürich (CH)

Ilmac Lausanne

Networking. Forum. Aussteller

Datum: 23.-24. September 2026

Ort: Lausanne (CH)

Cleanzone

Internationale Fachmesse und Kongress für Reinraumtechnologie

Datum: 23.-24. September 2026

Ort: Frankfurt am Main (D)

VISION

Weltleitmesse für Bildverarbeitung

Datum: 06.-08. Oktober 2026

Ort: Stuttgart (D)

electronica

Weltleitmesse und Konferenz der Elektronik

Datum: 10.-13. November 2026

Ort: München (D)

Achema

Internationale Leitmesse der Prozessindustrie

Datum: 14.-18. Juni 2027

Ort: Frankfurt am Main (D)

drupa

Weltweit führende Fachmesse für Drucktechnologien

Datum: 09.-17. Mai 2028

Ort: Düsseldorf (D)

Bezugsquellenverzeichnis