Symbolbild

Symbolbild

Künstliche Intelligenz "liest" und "versteht" Forschungsartikel

Publiziert

Forscher eines Start-ups trainieren ein neuronales Netz, um chemische Formeln aus Forschungsunterlagen zu erkennen

Forscher von Syntelly - einem aus Skoltech hervorgegangenen Start-up - der Staatlichen Universität Lomonossow in Moskau und der Sirius-Universität haben eine auf einem neuronalen Netz basierende Lösung für die automatische Erkennung chemischer Formeln auf eingescannten Forschungspapieren entwickelt. Die Studie wurde in Chemistry-Methods, einer wissenschaftlichen Zeitschrift der European Chemical Society, veröffentlicht.

Die Menschheit tritt in das Zeitalter der künstlichen Intelligenz ein. Auch die Chemie wird sich durch die modernen Methoden des Deep Learning verändern, die stets grosse Mengen an qualitativen Daten für das Training neuronaler Netze erfordern.

Die gute Nachricht ist, dass chemische Daten "gut altern". Selbst wenn eine bestimmte Verbindung ursprünglich vor 100 Jahren synthetisiert wurde, sind die Informationen über ihre Struktur, Eigenschaften und Synthesewege auch heute noch relevant. Selbst in unserer Zeit der universellen Digitalisierung kann es durchaus vorkommen, dass ein organischer Chemiker auf eine Originalzeitschrift oder eine Dissertation aus einer Bibliothek zurückgreift - die z. B. in deutscher Sprache bereits Anfang des 20. Jahrhunderts veröffentlicht wurde -, um Informationen über ein schlecht untersuchtes Molekül zu erhalten.

Die schlechte Nachricht ist, dass es keine anerkannte Standardmethode für die Darstellung chemischer Formeln gibt. Chemiker verwenden üblicherweise viele Tricks in Form von Kurzschreibweisen für bekannte chemische Gruppen. Zu den möglichen Abkürzungen für eine tert-Butylgruppe gehören zum Beispiel "tBu", "t-Bu" und "tert-Bu". Erschwerend kommt hinzu, dass Chemiker oft eine Vorlage mit verschiedenen "Platzhaltern" (R1, R2 usw.) verwenden, um auf viele ähnliche Verbindungen zu verweisen, wobei diese Platzhaltersymbole überall definiert sein können: in der Abbildung selbst, im Fliesstext des Artikels oder in Ergänzungen. Ganz zu schweigen davon, dass der Zeichenstil in den verschiedenen Zeitschriften variiert und sich mit der Zeit weiterentwickelt, dass die persönlichen Gewohnheiten der Chemiker unterschiedlich sind und dass sich die Konventionen ändern. Das führt dazu, dass selbst ein erfahrener Chemiker manchmal ratlos ist, wenn er versucht, ein "Rätsel" zu lösen, das er in einem Artikel gefunden hat. Für einen Computeralgorithmus scheint die Aufgabe unlösbar zu sein.

Die Forscher hatten jedoch bereits Erfahrung mit der Lösung ähnlicher Probleme mit Hilfe von Transformer - einem neuronalen Netzwerk, das ursprünglich von Google für die maschinelle Übersetzung vorgeschlagen wurde. Anstatt Text zwischen Sprachen zu übersetzen, nutzte das Team dieses leistungsstarke Werkzeug, um das Bild eines Moleküls oder einer molekularen Vorlage in seine textuelle Darstellung umzuwandeln. Eine solche Darstellung wird Functional-Group-SMILES genannt.

Zur grossen Überraschung der Forscher erwies sich das neuronale Netz als in der Lage, fast alles zu lernen, sofern der entsprechende Darstellungsstil in den Trainingsdaten enthalten war. Allerdings benötigt Transformer zum Trainieren Dutzende von Millionen von Beispielen, und so viele chemische Formeln aus Forschungsarbeiten von Hand zu sammeln, ist unmöglich. Daher wählte das Team einen anderen Ansatz und erstellte einen Datengenerator, der Beispiele für molekulare Vorlagen erzeugt, indem er zufällig ausgewählte Molekülfragmente und Darstellungsstile kombiniert.

"Unsere Studie ist ein gutes Beispiel für den laufenden Paradigmenwechsel bei der optischen Erkennung von chemischen Strukturen. Während sich frühere Forschungen auf die Erkennung von Molekülstrukturen an sich konzentrierten, können wir uns jetzt, da wir über die einzigartigen Fähigkeiten von Transformer und ähnlichen Netzwerken verfügen, stattdessen der Schaffung künstlicher Mustergeneratoren widmen, die die meisten der existierenden Darstellungsstile von Molekülvorlagen imitieren würden. Unser Algorithmus kombiniert Moleküle, funktionelle Gruppen, Schriftarten, Stile, sogar Druckfehler, er fügt Bits zusätzlicher Moleküle, abstrakte Fragmente usw. ein. Selbst für einen Chemiker ist es schwer zu erkennen, ob das Molekül direkt aus einem echten Papier oder aus dem Generator stammt", so der Hauptautor der Studie, Sergey Sosnin, der CEO von Syntelly, einem bei Skoltech gegründeten Startup-Unternehmen.

Die Autoren der Studie hoffen, dass ihre Methode ein wichtiger Schritt auf dem Weg zu einer künstlichen Intelligenz ist, die in der Lage wäre, Forschungspapiere in dem Masse zu "lesen" und zu "verstehen", wie es ein hochqualifizierter Chemiker tun würde.

Originalveröffentlichung

Ivan Khokhlov et al.; "Image2SMILES: Transformer-Based Molecular Optical Recognition Engine"; Chemistry - Methods; 2022

EVENTS

ArbeitsSicherheit Schweiz

Fachmesse für Arbeitssicherheit, Gesundheitsschutz und Gesundheitsförderung am Arbeitsplatz

Datum: 20.-21. Mai 2026

Ort: Zürich (CH)

The Pharma Days

Veranstaltung für Zusammenarbeit, Innovation und Geschäftswachstum in der pharmazeutischen Industrie

Datum: 27.-28. Mai 2026

Ort: Genf (CH)

Swissmem Industrietag

Konferenz für die Berufsbildung in der Schweizer Tech-Industrie

Datum: 23. Juni 2026

Ort: Bern (CH)

CosmeticBusiness

Internationale Fachmesse für die Kosmetik-Zulieferindustrie

Datum: 10.-11. Juni 2026

Ort: München (D)

EPHJ-EPMT-SMT

Internationale Ausstellung für Uhrenindustrie, Mikrotechnologie und Medizinaltechnik

Datum: 10.-12. Juni 2026

Ort: Genf (CH)

GS1 Excellence Days

Konferenz für Innovationen und Lösungen im Bereich der Standardisierung, Identifikation und Geschäftsprozesse

Datum: 18. Juni 2026

Ort: Bern (CH)

FILTECH

Internationale Fachmesse für Filter- und Trenntechnologie

Datum: 30. Juni-02. Juli 2026

Ort: Köln (D)

maintenance Schweiz

Schweizer Fachmesse für industrielle Instandhaltung und Facility Management

Datum: 26.-27. August 2026

Ort: Zürich (CH)

all about automation

Fachmesse für Industrieautomation

Datum: 26.-27. August 2026

Ort: Zürich (CH)

Swiss Green Economy Symposium

Konferenz zum Thema Wirtschaft und Nachhaltigkeit in der Schweiz

Datum: 2.-4. September 2026

Ort: Winterthur (CH)

Ilmac Lausanne

Fachmesse und Branchentreff für die Chemie- und Life-Science-Industrie in der Westschweiz

Datum: 23.-24. September 2026

Ort: Lausanne (CH)

POWTECH

Internationale Fachmesse für Technologien zur Verarbeitung von Pulvern, Feststoffen und Flüssigkeiten

Datum: 29. September -1.Oktober 2026

Ort: Nürnberg (D)

W3+ Fair Jena

Events für Hightech-Innovationen aus den Schlüsseltechnologien Optik, Photonik, Elektronik und Mechanik

Datum: 23.-24. September 2026

Ort: Jena (D)

Rehacare

Internationale Fachmesse für Rehabilitation, Prävention, Inklusion und Pflege

Datum: 23.-26. September 2026

Ort: Düsseldorf (D)

VISION

Weltleitmesse für industrielle Bildverarbeitung

Datum: 6.-8. Oktober 2026

Ort: Stuttgart (D)

IFAS

Internationale Fachmesse für den Schweizer Gesundheitssektor

Datum: 20.-22. Oktober 2026

Ort: Zürich (CH)

CPHI

Weltweit führende Messe für die pharmazeutische Industrie

Datum: 6.-8. Oktober 2026

Ort: Frankfurt (D)

electronica

Weltleitmesse und Konferenz der Elektronik

Datum: 10.-13. November 2026

Ort: München (D)

SEMICON Europa

Europäische Leitmesse für Mikroelektronik

Datum: November 2026

Ort: München (D)

AUTOMA+

Kongress für die Pharmaindustrie mit Konzentration auf die digitale Transformation und Automatisierung

Datum: 16.-17. November 2026

Ort: Zürich (CH)

ALL4PACK EMBALLAGE

Leitmesse für die Verpackungs- und Intralogistikbranche

Datum: 24.-26. November 2026

Ort: Paris (F)

Bitkom Digital Health Conference

Konferenz für die Chancen und Herausforderungen der Digitalisierung im Gesundheitswesen

Datum: 24. November 2026

Ort: Berlin (D)

LabConCert

Internationale Konferenz zu Biosicherheit und Labortechnik

Datum: 8.-9. Dezember 2026

Ort: Marburg (D)

VALVE WORLD EXPO

Weltweite Leitmesse für Industrie-Armaturen

Datum: 1.-3. Dezember 2026

Ort: Düsseldorf (D)

Pharmapack Paris

Europäische Fachmesse für die Pharmaverpackungs- und Arzneimittelverabreichungsgeräteindustrie

Datum: 27.-28. Januar 2027

Ort: Paris (F)

Empack Schweiz

Schweizer Fachmesse für Verpackungslösungen und -technologien

Datum: 27.-28. Januar 2027

Ort: Zürich (CH)

Logistics & Automation

Fachmesse für Intralogistik, Distribution, Transport und E-Logistik in der Schweiz

Datum: 27.-28. Januar 2027

Ort: Zürich (CH)

Paris Packaging Week

Weltweit grösste Messe für Verpackungsinnovationen in der Parfüm-, Kosmetik- und Körperpflegeindustrie

Datum: 3.-4. Februar 2027

Ort: Paris (F)

Vivaness

Internationale Fachmesse für Naturkosmetik

Datum: 16.-19. Februar 2027

Ort: Nürnberg (D)

health.tech GLOBAL SUMMIT

HealthTech bezeichnet den Einsatz moderner digitaler Technologien wie Apps, Wearables oder KI zur Verbesserung von Gesundheitsversorgung, Prävention und medizinischer Diagnostik.

Datum: 2.-4. März 2027

Ort: Basel (CH)

Additive Manufacturing Forum

Europäische Leitkonferenz und Fachausstellung für additive Fertigung

Datum: 2.-3. März 2027

Ort: Berlin (D)

Forum Kreislaufwirtschaft

Veranstaltung für die Umsetzung der Kreislaufwirtschaft in verschiedenen Bereichen

Datum: 18. März 2027

Ort: Zürich (CH)

LogiMat

Internationale Fachmesse für Intralogistik

Datum: 16.-18. März 2027

Ort: Stuttgart (D)

Trendtage Gesundheit Luzern

Veranstaltung für aktuelle Trends und Perspektiven im Gesundheitswesen

Datum: 10.-11. März 2027

Ort: Luzern (CH)

Global Industrie

Messe für den gesamten industriellen Sektor in Frankreich und darüber hinaus

Datum: 15.-18. März 2027

Ort: Paris (F)

LABVOLUTION

Fachmesse für innovative Laborausstattung und die Optimierung von Labor-Workflow.

Datum: Mai 2027

Ort: Hannover (D)

Achema

Weltleitmesse für Prozessindustrie

Datum: 14.-18. Juni 2027

Ort: Frankfurt am Main (D)

Automatica

Weltleitmesse für intelligente Automation und Robotik

Datum: 22.-25. Juni 2027

Ort: München (D)

LASER World of PHOTONICS

Weltleitmesse und Kongressfür Komponenten, Systeme und Anwendungen der Photonik

Datum: 22.-25. Juni 2027

Ort: München (D)

SINDEX

Schweizer Messe für industrielle Automatisierung

Datum: 31. August- 2. September 2027

Ort: Bern (CH)

Ilmac

Fachmesse für Prozess- und Labortechnologie

Datum: 21.-23. September 2027

Ort: Basel (CH)

CMS Berlin

Internationale Leitmesse für Reinigung und Hygiene

Datum: 21.-24. September 2027

Ort: Berlin (D)

FachPack

Europäische Fachmesse für Verpackung, Technik, Veredelung und Logistik

Datum: 21.-23. September 2027

Ort: Nürnberg (D)

A + A

Weltleitmesse für sicheres und gesundes Arbeiten

Datum: 19.-22. Okotber 2027

Ort: Düsseldorf (D)

transport-CH

Schweizer Fachmesse für Nutzfahrzeuge und Automobil-Werkstattbedarf

Datum: 10.-13. November 2027

Ort: Bern (CH)

AQUA Suisse

Schweizer Fachmesse für kommunales und industrielles Wassermanagement

Datum: 1.-2.Dezember 2027

Ort: Zürich (CH)

Pumps & Valves

Fachmesse für industrielle Pumpen, Armaturen & Prozesse

Datum: 1.-2. Dezember 2027

Ort: Zürich (CH)

Swissbau

Fachmesse der Schweizer Bau- und Immobilienwirtschaft

Datum: 18.-22. Januar 2028

Ort: Basel (CH)

aqua pro

Schweizer Fachmesse für die Bereiche Trinkwasser, Abwasser und Gas

Datum: Februar 2028

Ort: Bulle (CH)

drupa

Weltweit führende Fachmesse für Drucktechnologien

Datum: 9.-17. Mai 2028

Ort: Düsseldorf (D)

Bezugsquellenverzeichnis