Drei Fragen an Dr. Oliver Karras

read this article in English

Ein Interview über Künstliche Intelligenz, ChatGPT, Wissensgraphen und die Beantwortung wissenschaftlicher Fragen

Dr. Oliver Karras ist Post-Doc und Data Scientist in der Forschungsgruppe Data Science and Digital Libraries an der TIB: Er beschäftigt sich mit dem ORKG, dem Open Research Knowledge Graph, NFDI4ing, der nationalen Forschungsdateninfrastruktur für die Ingenieurswissenschaften, und FAIR Data Spaces, einem gemeinsamen Datenraum für Wissenschaft und Wirtschaft. In seiner Forschung befasst er sich mit der Frage, wie der ORKG bei ingenieurswissenschaftliche Fragestellungen Anwendung finden kann.

Porträtfoto von Dr. Oliver Karras
Dr. Oliver Karras. Foto: TIB/C. Bierwagen

ChatGPT ist in aller Munde. Das Sprachmodell, das auf der Technologie des maschinellen Lernens basiert, kann schon eine ganze Menge. Es kann Fragen beantworten, Unterhaltungen mit Benutzer:innen führen und bei Problemen Lösungsvorschläge bieten. Aber es gibt auch Dinge, die ChatGPT (noch) nicht kann. Woran scheitert ChatGPT momentan noch?

Große Sprachmodelle wie ChatGPT generieren Antworten, die sich aus den am wahrscheinlichsten aufeinanderfolgenden Wörtern in Bezug auf die in der Frage verwendeten Wörter zusammensetzen. Aktuell wird gerade sehr intensiv darüber diskutiert, inwieweit sich das vom Denken unseres menschlichen Gehirns unterscheidet. Das fehlende Verständnis der Frage und des Kontextes führt bei Sprachmodellen jedoch oft zu dem Problem der sogenannten Halluzinationen.

Bei Halluzinationen handelt es sich um von Sprachmodellen erzeugte Texte, die plausibel mit der Realität erscheinen, aber teilweise oder sogar komplett erfunden sind. Diese halluzinierten Texte sind potenziell kritisch, da sie vermeintlich Wissen vermitteln, das so aber im schlimmsten Fall gar nicht existiert und die Antwort damit falsch ist. Sprachmodelle scheitern auch daran, das generierte Wissen kritisch zu hinterfragen, mit der Realität abzugleichen und mit Referenzen zu belegen. Außerdem können sie keinen validierten Wissensbestand aufbauen und für die Beantwortung weiterer Fragen nutzen. All dies sind aber Anforderungen, die gerade im wissenschaftlichen Bereich von besonderer Bedeutung sind.

Gemeinsam mit Prof. Dr. Sören Auer, Dr. Markus Stocker und Dr. Mohamad Yaser Jaradeh von der TIB sowie Gastwissenschaftlern vom Forschungszentrum L3S haben Sie zu dieser Thematik gerade einen Beitrag in Scientific Reports, einem renommierten Open-Access-Journal von Nature, veröffentlicht. Worum geht es darin?

In dem Artikel befassen wir uns mit der Problematik, dass aktuelle Question-Answering-Systeme und Sprachmodelle zwar in der Lage sind, Fragen zu allgemeinem Wissen gut zu beantworten, aber oft an der Beantwortung von Fragen zu wissenschaftlichem Wissen scheitern. Für unsere Untersuchungen haben wir zunächst einen Datensatz entwickelt, der im Wesentlichen aus 100 manuell erzeugten und 2.465 maschinell generierten Fragen und den zugehörigen Antworten zu wissenschaftlichen Wissen besteht. Auf Basis dieses Datensatzes haben wir untersucht, wie gut ein bestehendes Question-Answering-System (JarvisQA) und eines der aktuell bekanntesten Sprachmodelle (ChatGPT) die 100 manuell erzeugten Fragen richtig beantworten können. JarvisQA konnte 52 der 100 Fragen beantworten, davon waren allerdings nur 12 Antworten richtig. ChatGPT konnte zwar 63 der 100 Fragen beantworten, von denen aber nur 14 Antworten richtig waren. Betrachten wir also nur das Verhältnis von richtigen Antworten zu den gegeben Antworten, so haben beide System gerade einmal etwa 23 Prozent der beantworteten Fragen richtig beantwortet und nur etwa 14 Prozent der insgesamt 100 Fragen überhaupt.

Mit unserer Arbeit verdeutlichen wir, wie herausfordernd es für aktuelle Question-Answering-Systeme und Sprachmodelle ist, Fragen zu wissenschaftlichem Wissen zu beantworten. Weiterhin stellen wir aber auch den von uns entwickelten Datensatz öffentlich zugänglich zur Verfügung, um langfristig die Entwicklung von Question-Answering-Systemen und Sprachmodellen zu ermöglichen, die eben genau in der Lage sind, solche Fragen zu wissenschaftlichem Wissen im vollem Umfang richtig zu beantworten.

ChatGPT schneidet bei der Beantwortung wissenschaftlicher Fragen also schlecht ab. Warum ist das so und wie kann der ORKG zu besseren Antworten beitragen?

Zunächst ist es so, dass Wissen für den Computer (das schließt Question-Answering-Systeme und Sprachmodelle wie ChatGPT mit ein) in einer verständlichen Struktur dargestellt werden muss. Diese Strukturen sind für allgemeines Wissen vergleichsweise einfach, weisen aber bei wissenschaftlichen Wissen schnell eine hohe Komplexität auf. Um diese komplexen Strukturen richtig zu verstehen, ist kontextuelles Verständnis erforderlich. Wie Anfangs erläutert scheitern Sprachmodelle aktuell genau an diesem kontextuellen Verständnis, was dazu führt, dass ChatGPT bei der Beantwortung wissenschaftlicher Fragen schlecht abschneidet.

In diesem Zusammenhang kann der ORKG zu einer besseren Beantwortung beitragen, da er darauf ausgerichtet ist, wissenschaftliches Wissen überhaupt erst einmal in einer für den Computer verständlichen Struktur zu erfassen. Weiterhin ist das wissenschaftliche Wissen im ORKG über verschiedene Schnittstellen für jeden frei zugänglich, sodass es zum Beispiel mit Metadaten zu kontextuellen Entitäten aus anderen wissenschaftlichen Infrastrukturen kombiniert werden kann. Eine derartige Kombination von wissenschaftlichem Wissen und kontextuellen Entitäten ermöglicht es Question-Answering-System und Sprachmodellen, Fragen zu wissenschaftlichem Wissen im weitesten Sinne richtig zu beantworten, da sowohl das wissenschaftliche Wissen selbst als auch der erforderliche Kontext zu dessen korrekter Verarbeitung verfügbar ist.

The SciQA Scientific Question Answering Benchmark for Scholarly Knowledge

Auer, S., Barone, D.A.C., Bartz, C. et al. The SciQA Scientific Question Answering Benchmark for Scholarly Knowledge. Sci Rep 13, 7240 (2023). https://doi.org/10.1038/s41598-023-33607-z