Wie Wissens- und Datentransfer bei Machine Learning hilft

Machine Learning , Artificial Intelligence, Ai, Deep Learning Bl

Mit der wachsenden Zahl von KI-Modellen wird deutlich, dass viele neue Anwendungen Ähnlichkeiten mit bereits bestehenden Anwendungen aufweisen. Transferlernen und Domänenanpassung nutzen diese Überschneidungen, indem sie zuvor trainierte Modelle wiederverwenden. Dieser Ansatz beschleunigt das Training, reduziert die Datenanforderungen und verbessert die Modellleistung, was ihn zu einem wertvollen Werkzeug macht.

Der herkömmliche Ansatz für Deep Learning umfasst das Sammeln großer Mengen markierter Daten und das Trainieren eines neuronalen Netzwerks auf diesen Daten. Mit zunehmender Anzahl von Modellen wird dieser Ansatz jedoch immer schwieriger:

  • Es kann schwierig sein, genügend beschriftete Daten für das Training hochwertiger Modelle zu sammeln. So sind beispielsweise spezialisierte medizinische Bilddaten oft rar oder aufgrund von Datenschutzbestimmungen nicht zugänglich. Darüber hinaus ist die Erstellung beschrifteter Datensätze teuer und zeitaufwändig, da sie in der Regel die manuelle Beschriftung großer Datenmengen erfordert.
  • Das Training von Deep-Learning-Modellen ist rechenintensiv und erfordert in der Regel leistungsstarke Hardware wie GPUs. Der Zugang zu solchen Ressourcen kann kostspielig und begrenzt sein. Diese Herausforderung ist besonders ausgeprägt bei großen Sprachmodellen (LLMs) wie ChatGPT-4, die Billionen von Parametern haben und Trainingskosten in Höhe von mehreren Hundert Millionen Dollar erfordern.

Um diesen Herausforderungen zu begegnen, schlagen wir vor, bestehende Daten oder Modelle als Wissensquelle für unsere Zielanwendungen zu nutzen. Durch Transferlernen wollen wir dieses Quellwissen effektiv an die spezifischen Anforderungen der neuen Aufgabe anpassen. Betrachten Sie zum Beispiel Abbildung 1. Sie veranschaulicht zwei sehr unterschiedliche Datensätze und Aufgaben. Auf der linken Seite haben wir leicht zugängliche farbige Schmetterlingsbilder, während wir auf der rechten Seite medizinische Schwarz-Weiß-Daten haben, die Datenschutzbeschränkungen unterliegen und nur begrenzt verfügbar sind. Trotz dieser Unterschiede geht es bei beiden Aufgaben um Bilderkennung und gemeinsame Merkmale wie Form und Textur auf hoher Ebene.

Abb1

Die verschiedenen Arten der Übertragung

Es gibt verschiedene Arten von Unterschieden zwischen Quell- und Zieldaten (siehe [1] für weitere Details). Diese Unterschiede beeinflussen die geeignete Transfer-Lernmethode und die Datenanforderungen für effektives Lernen. Wir kategorisieren diese Unterschiede in drei Haupttypen:

Prioritätsverschiebung: Ein Label-Shift tritt auf, wenn sich die Verteilung der Klassen-Labels zwischen dem Quell- und dem Zieldatensatz unterscheidet. Nehmen wir zum Beispiel eine Aufgabe, bei der Patienten als krank oder gesund klassifiziert werden. In einem Quelldatensatz, der über Online-Umfragen erhoben wurde, gaben nur 10 % der Teilnehmer an, krank zu sein. In einem Zieldatensatz, der in einem Krankenhaus erhoben wurde, sind dagegen 80 % der Patienten krank. Dieses Ungleichgewicht in den Klassenverhältnissen ist eine vorherige Verschiebung.

Abb2

Kovariatenverschiebung: Eine Kovariatenverschiebung tritt auf, wenn sich die Verteilung der Eingabemerkmale zwischen der Ausgangs- und der Zieldomäne unterscheidet, während die zugrunde liegende Aufgabe unverändert bleibt. Bei der Erkennung von Emotionen im Gesicht kann beispielsweise ein Modell, das auf Bildern in Studioqualität trainiert wurde, bei der Auswertung von Smartphone-Selfies und selbst gemachten Fotos aufgrund unterschiedlicher Beleuchtung und Hintergründe schlechter abschneiden. Die Abbildungen 3 und 4 zeigen zwei Szenarien der Kovariatenverschiebung: eines, bei dem die verschobenen Merkmale die Vorhersagen erheblich beeinflussen, und ein anderes, bei dem sie irrelevant sind.

Abb3

Abb3

Abb4

Abb4

Konzeptverschiebung: Die Konzeptverschiebung bezieht sich auf Änderungen in der erwarteten Vorhersage für eine bestimmte Eingabe zwischen den Quell- und Zieldaten. Dies kann aufgrund von Faktoren wie Gerätevariationen oder Gerätealterung auftreten. Beispielsweise unterscheidet sich die Leistungsabgabe einer Batterie zwischen ihrem Ausgangszustand und nach 100 Zyklen, was Modellanpassungen auf der Grundlage des Alters der Batterie erforderlich macht.

Abb5

Abb5

In der Praxis treten die drei beschriebenen Arten von Veränderungen oft nebeneinander auf und interagieren auf komplexe Weise. Während wir idealisierte Szenarien von Label-Shift, Kovariaten-Shift und Konzept-Shift vorgestellt haben, weisen reale Daten wahrscheinlich eine Kombination dieser Herausforderungen auf. So kann beispielsweise ein Datensatz zur medizinischen Bildgebung gleichzeitig eine Verschiebung von Bezeichnungen aufgrund von Änderungen der Krankheitsprävalenz und eine Verschiebung von Kovariaten aufgrund von Variationen der Bildgebungsgeräte aufweisen.

Das Verständnis dieser Verschiebungen ist entscheidend für effektives Transferlernen. Durch die Identifizierung des vorherrschenden Shift-Typs können Forscher geeignete Anpassungstechniken auswählen, auch in Abhängigkeit von der Art der Datenverfügbarkeit.

Die verschiedenen Arten der Übertragung

Oft verfügen wir über umfangreiche Quelldaten oder gut etablierte Modelle. Die Zielanwendungen haben jedoch häufig mit Datenknappheit und begrenzten oder fehlenden Annotationen zu kämpfen. Diese unterschiedlichen Situationen stellen einzigartige Herausforderungen dar, die maßgeschneiderte Transfer-Learning-Ansätze erforderlich machen.

  1. Überwachtes Übertragen: Wenn die Zieldaten beschriftet sind, besteht ein einfacher Ansatz darin, das Quellmodell an den Zieldaten fein abzustimmen. Dies ist oft rechnerisch effizient, insbesondere bei begrenzten Zieldaten, und ist besonders effektiv für die Anpassung von Konzeptverschiebungen. Wie viele Daten ausreichend sind, hängt jedoch davon ab, wie groß die Verschiebung zwischen Quell- und Zieldaten ist. Darüber hinaus kann es bei der Feinabstimmung zu einer Überanpassung kommen, wenn mit einem kleinen Datensatz trainiert wird, was zu schlechter Generalisierung und Vergessen führt [1]. Um dies zu vermeiden, können Regularisierungstechniken eingesetzt werden, um eine übermäßige Abweichung vom Ausgangsmodell zu verhindern, wie in Abbildung 6 dargestellt.
Abb6

Abb6

  1. Semi-überwachte Übertragung: Wenn die Zieldaten überwiegend unbeschriftet sind, mit möglicherweise einigen wenigen beschrifteten Beispielen, wird häufig ein kombinierter Ansatz verwendet. Dies beinhaltet in der Regel eine nicht überwachte Lernphase, um gemeinsame Merkmale aus Quell- und Zieldaten zu extrahieren. Anschließend wird eine überwachte Lernkomponente eingeführt, die häufig die Vorhersage von Pseudo-Labels für die unmarkierten Zieldaten beinhaltet.
  2. Unüberwachte Übertragung: Wenn die Zieldaten keine Kennzeichnungen haben, ist es oft nicht möglich, die Konzept- und Prioritätsverschiebungen zu berücksichtigen, da diese Verschiebungen eine Änderung der zuvor nicht gesehenen Vorhersagen beinhalten. Ohne beschriftete Daten oder zusätzliche Informationen (z. B. physikalisch informiertes Lernen) kann das Modell keine korrekten Vorhersagen treffen.

Kovariatenverschiebungen, die durch Änderungen in der Eingabeverteilung gekennzeichnet sind, ohne die Vorhersageaufgabe zu beeinflussen, können teilweise mit unüberwachten Methoden angegangen werden. Kovariatenverschiebungen, die kritische Merkmalsänderungen beinhalten (wie in Abbildung 3 dargestellt), bleiben ohne gelabelte Zieldaten eine Herausforderung, da Vorhersagen außerhalb des Bereichs der Quelldomäne ohne zusätzliches Wissen unvorhersehbar werden. Im Falle von Kovariatsverschiebungen, die irrelevante Merkmale beinhalten (Abbildung 4), ist das Deep Domain Alignment jedoch eine effektive Transfermethode. Diese Technik zielt darauf ab, die Eingangsverteilungen der Quell- und der Zieldomäne anzugleichen, um eine gemeinsame Merkmalsdarstellung zu erhalten, aus der wir Vorhersagen treffen:

Abb7

Abb7

Beispiele für Anwendungen

Die Verbreitung umfangreicher Datensätze und leistungsfähiger Modelle hat zu einer Zunahme von Domänenverschiebungen geführt, bei denen Modelle, die auf einem Datensatz trainiert wurden, auf einem anderen nur schwerlich eine gute Leistung erbringen. Um dieser Herausforderung zu begegnen und die Ressourcennutzung zu optimieren, hat sich die Domänenanpassung als wichtige Technik herauskristallisiert.

Häufige Ursachen für Domänenverschiebungen sind:

  • Personalisierung: Die Einzigartigkeit individueller Daten, die von Geräten wie Smartphones und anderen IoT-Geräten erzeugt werden, macht es schwierig, KI-Modelle zu erstellen, die für alle geeignet sind. So hängt beispielsweise die Textvorhersage stark vom persönlichen Schreibstil ab, was personalisierte Modelle erforderlich macht. Die Personalisierung bietet zwar erhebliche Vorteile, aber eine große Anzahl von Teilnehmern und die zusätzlichen Anforderungen an den Datenschutz stellen zusätzliche Herausforderungen dar, die am besten durch föderiertes Lernen gelöst werden [3]. Domänenanpassung und Transferlernen im Kontext des föderierten Lernens sind daher ein wichtiges Forschungsthema.
  • Geografische Unterschiede: Faktoren wie der Standort beeinflussen verschiedene Aufgaben erheblich. Die Wettervorhersage beispielsweise erfordert aufgrund der geografischen Unterschiede lokalisierte Modelle.
  • Medizinische Bildanalyse: Übertragung von Wissen aus großen natürlichen Bilddatensätzen auf medizinische Bildaufgaben wie Krankheitsklassifizierung, Objekterkennung und Segmentierung. Unter [4] wird ein großer Quelldatensatz (ImageNet, mit mehr als 14 Millionen Bildern) als Quelldatensatz verwendet, der dann auf den kleineren medizinischen Datensatz übertragen wird.
  • Synthetische Daten: Manchmal kann die Knappheit an realen Daten durch die Erstellung eines großen Quelldatensatzes synthetischer Daten und die anschließende Übertragung dieses Wissens auf den realen Zieldatensatz gemildert werden [5].

Schlussfolgerung

In der heutigen Welt sind wir von riesigen Datenmengen umgeben. Aber nicht alle Daten sind gleich. Oft unterscheiden sich die Informationen, die wir zur Lösung eines Problems benötigen, von den Informationen, die wir bereits haben. Hier kommen das Transferlernen und die Domänenanpassung ins Spiel.

Stellen Sie sich vor, Sie bringen einem Kind das Fahrradfahren bei. Sobald es gelernt hat, das Gleichgewicht zu halten, kann es sich leicht an verschiedene Fahrräder anpassen. Das ist wie Transferlernen – man nutzt das, was man bereits weiß, um etwas Neues zu lernen. Aber was ist, wenn das Kind lernen muss, auf Eis Fahrrad zu fahren? Hier kommt die Domänenanpassung ins Spiel, d. h. die Anpassung der Kenntnisse an eine neue Situation. Diese Techniken sind unerlässlich für die Entwicklung intelligenter Technologien, die mit verschiedenen Situationen umgehen können und sich im Laufe der Zeit verbessern.


Referenzen

[1] W. M. Kouw, An introduction to domain adaptation and transfer learning, ArXiv abs/1812.11806 (2018). URL https://api.semanticscholar.org/CorpusID:57189554

[2] L. Wang, X. Zhang, H. Su, J. Zhu, A comprehensive survey of continual learning: Theory, method and application, IEEE Transactions on Pattern Analysis and Machine Intelligence 46 (8) (2024) 5362-5383. doi: 10.1109/TPAMI.2024.3367329.

[3] Föderiertes Lernen: The future of ai without compromising privacy, https://www.societybyte.swiss/en/ 2024/04/26/federated-learning-the-future-of-ai-without-compromising-privacy/ (2024).

[4] H.-C. Shin, H. R. Roth, M. Gao, L. Lu, Z. Xu, I. Nogues, J. Yao, D. Mollura, R. M. Summers, Deep convolutional neural networks for computer-aided detection: Cnn architectures, dataset characteristics and transfer learning, IEEE Transactions on Medical Imaging 35 (5) (2016) 1285-1298. doi:10.1109/TMI.2016.2528162.

[5] S. Mishra, R. Panda, C. P. Phoo, C.-F. R. Chen, L. Karlinsky, K. Saenko, V. Saligrama, R. S. Feris, Task2sim: Towards effective pre-training and transfer from synthetic data, in: 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2022, pp. 9184-9194. doi:10.1109/CVPR52688.2022.00898.

Zusätzliches Lesematerial zum Thema:

[6] Fine tune large language model (llm) on a custom dataset with qlora, https://dassum.medium.com/fine-tune-large-language-model-llm-on-a-custom-dataset-with-qlora-fb60abdeba07 (2024).

[7] Awesome-domain-adaptation, https://github.com/zhaoxin94/awesome-domain-adaptation?tab=readme-ov-file#survey (2024).

[8] L. Zhang, X. Gao, Transfer adaptation learning: A decade survey, IEEE Transactions on Neural Networks and Learning Systems 35 (2019) 23-44. URL https://api.semanticscholar.org/CorpusID:75137541

[9] S. J. Pan, Q. Yang, A survey on transfer learning, IEEE Transactions on Knowledge and Data Engineering 22 (10) (2010) 1345-1359. doi:10.1109/TKDE.2009.191.

[10] F. Zhuang, Z. Qi, K. Duan, D. Xi, Y. Zhu, H. Zhu, H. Xiong, Q. He, A comprehensive survey on transfer learning, Proceedings of the IEEE 109 (2019) 43-76. URL https://api.semanticscholar.org/CorpusID:207847753

Fussnote

[1] Vergessen ist eine häufige Herausforderung beim kontinuierlichen Lernen, bei dem sich Modelle ständig an neue, kleine Datensätze anpassen müssen, ohne die Leistung bei zuvor gelernten Aufgaben zu beeinträchtigen (katastrophales Vergessen). Dies ist eine Form der Konzeptverschiebung, und die Leser können nachlesen [2] für ein tieferes Verständnis des kontinuierlichen Lernens und des Kompromisses zwischen Anpassung und Erinnern.

Creative Commons Licence

AUTHOR: Albin Grataloup

Dr. Albin Grataloup ist Postdoktorand in Data Science an der BFH. Seine Forschung konzentriert sich auf personalisierte und datenschutzfreundliche Lernmethoden, die unter anderem bei der Überwachung von Medizin und Wohlbefinden sowie bei generativen Systemen und Empfehlungen angewendet werden.

Create PDF

Ähnliche Beiträge

Es wurden leider keine ähnlichen Beiträge gefunden.

0 Kommentare

Dein Kommentar

An Diskussion beteiligen?
Hinterlasse uns Deinen Kommentar!

Schreiben Sie einen Kommentar

Ihre E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert