Job Search and Career Advice Platform

Aktiviere Job-Benachrichtigungen per E-Mail!

Masterarbeit: Erkennung von Hybridtexten mit menschlichen und LLM-generierten Anteilen

Fraunhofer-Gesellschaft

Darmstadt

Vor Ort

EUR 50.000 - 70.000

Vollzeit

Heute
Sei unter den ersten Bewerbenden

Erstelle in nur wenigen Minuten einen maßgeschneiderten Lebenslauf

Überzeuge Recruiter und verdiene mehr Geld. Mehr erfahren

Zusammenfassung

Eine führende Forschungseinrichtung in Darmstadt sucht engagierte Talente für die Entwicklung und Evaluierung von Verfahren zur Erkennung von Hybridtexten. Die Position umfasst den Aufbau geeigneter Datensätze sowie die Implementierung und das Training von Machine Learning-Modellen. Ideale Kandidaten haben Grundkenntnisse in Machine Learning und gute Python-Kenntnisse. Selbstständige Arbeitszeiteinteilung und Einblicke in akademische Forschung erwarten die Bewerber.

Leistungen

Selbstständige Arbeitszeiteinteilung
Einblicke in akademische Forschung und industrielle Anwendung

Qualifikationen

  • Motivation, sich eigenständig in aktuelle Forschung zu LLM-Detektion einzuarbeiten.

Aufgaben

  • Aufbau eines Datensatzes aus Hybridtexten.
  • Implementierung und Training von Transformer-basierten Verfahren.
  • Evaluation der Verfahren anhand verschiedener Textarten.
  • Vergleich der Performance mit existierenden Methoden.
  • Anfertigung eines Projektberichts in Form einer Masterarbeit.

Kenntnisse

Grundkenntnisse im Bereich Machine Learning
Gute Python-Kenntnisse
Erfahrung mit PyTorch oder HuggingFace Transformer
Interesse an KI und Gesellschaft
Jobbeschreibung

Hintergrund/Motivation:
Mit dem Aufkommen leistungsfähiger Sprachmodelle (LLMs) entstehen immer häufiger Texte, die nicht ausschließlich von Menschen verfasst sind, sondern aus einer Mischung von menschlichen und maschinellen Passagen bestehen [1]. Solche sogenannten Hybridtexte stellen neue Herausforderungen dar, etwa bei der Plagiatserkennung, in der akademischen Integrität oder in der journalistischen Qualitätskontrolle [2]. Während es bereits zahlreiche Forschungsarbeiten zur Erkennung von vollständig LLM-generierten Texten gibt, ist die Identifikation von Hybridtexte deutlich schwieriger. Es fehlt an Studien, die systematisch untersuchen, wie zuverlässig Abschnitte innerhalb eines Dokuments einem Menschen oder einem LLM zugeordnet werden können [3].

Ziel:
Das Ziel dieser Arbeit ist es, Transformer-basierte Verfahren für die Erkennung von Hybridtexten zu entwickeln und zu evaluieren. Konkret sollen Abschnitte in Dokumenten identifiziert werden, die entweder von einem Menschen oder von einem LLM stammen. Dazu werden geeignete Datensätze aufgebaut (z. B. durch künstliche Kombination von Human- und LLM-Texten) und Modelle trainiert, die diese Segmentierungsaufgabe lösen.

Ergebnisse:
Die Arbeit liefert eine erste systematische Untersuchung zur automatischen Segmentierung von Hybridtexten. Die Ergebnisse sollen zeigen, wie zuverlässig aktuelle Verfahren in der Lage sind, menschliche und LLM-generierte Abschnitte voneinander zu trennen. Damit leistet die Arbeit einen Beitrag zur Entwicklung von Werkzeugen, die im Bildungsbereich, in der Plagiatserkennung und in der Medienanalyse eingesetzt werden können.

Hier sorgst Du für Veränderung

  • Aufbau eines Datensatzes aus Hybridtexten (Kombination von Human- und LLM-generierten Abschnitten).
  • Implementierung und Training von Transformer-basierten Klassifikations- oder Segmentierungsverfahren.
  • Evaluation der Verfahren anhand verschiedener Textarten (z. B. akademische Texte, journalistische Artikel, Social Media Posts).
  • Vergleich der Performance mit existierenden Methoden zur Textklassifikation.
  • Anfertigung eines Projektberichts in Form einer Masterarbeit.

Hiermit bringst Du Dich ein

  • Grundkenntnisse im Bereich Machine Learning und Natural Language Processing.
  • Gute Python-Kenntnisse, vorzugsweise erste Erfahrung mit PyTorch oder HuggingFace Transformer.
  • Interesse an der Schnittstelle von KI und Gesellschaft (z. B. Bildung, Medien, Plagiatsprüfung).
  • Motivation, sich eigenständig in aktuelle Forschung zu LLM-Detektion einzuarbeiten.

Was wir für Dich bereithalten

  • Selbstständige Arbeitszeiteinteilung
  • Einblicke in das Schnittfeld von akademischer Forschung und industrieller Anwendung

Verwandte Arbeiten:
[1] https://www.educationaldatamining.org/edm2024/proceedings/2024.EDM-short-papers.55/2024.EDM-short-papers.55.pdf
[2] https://arxiv.org/abs/2310.08903
[3] https://arxiv.org/html/2310.14724v3

Wir wertschätzen und fördern die Vielfalt der Kompetenzen unserer Mitarbeitenden und begrüßen daher alle Bewerbungen – unabhängig von Alter, Geschlecht, Nationalität, ethnischer und sozialer Herkunft, Religion, Weltanschauung, Behinderung sowie sexueller Orientierung und Identität. Schwerbehinderte Menschen werden bei gleicher Eignung bevorzugt eingestellt. Unsere Aufgaben sind vielfältig und anpassbar – für Bewerber*innen mit Behinderung finden wir gemeinsam Lösungen, die ihre Fähigkeiten optimal fördern.

Mit ihrer Fokussierung auf zukunftsrelevante Schlüsseltechnologien sowie auf die Verwertung der Ergebnisse in Wirtschaft und Industrie spielt die Fraunhofer-Gesellschaft eine zentrale Rolle im Innovationsprozess. Als Wegweiser und Impulsgeber für innovative Entwicklungen und wissenschaftliche Exzellenz wirkt sie mit an der Gestaltung unserer Gesellschaft und unserer Zukunft.

Bereit für Veränderung? Dann bewirb Dich jetzt, und mach einen Unterschied! Nach Eingang Deiner Online-Bewerbung erhältst Du eine automatische Empfangsbestätigung. Dann melden wir uns schnellstmöglich und sagen Dir, wie es weitergeht.

Fraunhofer-Institut für Sichere Informationstechnologie SIT

www.sit.fraunhofer.de

Kennziffer:82693Bewerbungsfrist:

Hol dir deinen kostenlosen, vertraulichen Lebenslauf-Check.
eine PDF-, DOC-, DOCX-, ODT- oder PAGES-Datei bis zu 5 MB per Drag & Drop ablegen.