Aktiviere Job-Benachrichtigungen per E-Mail!

Abschlussarbeit Big Data - PDF-Datenextraktion

Würth

Berlin

Hybrid

EUR 60.000 - 80.000

Vollzeit

Vor 4 Tagen

Sei unter den ersten Bewerbenden

Erhöhe deine Chancen auf ein Interview

Erstelle einen auf die Position zugeschnittenen Lebenslauf, um deine Erfolgsquote zu erhöhen.

Zusammenfassung

Würth bietet ein Praktikum im Bereich Big Data an, bei dem Sie an der Entwicklung einer Lösung zur Datenextraktion aus PDF-Dokumenten arbeiten. Das Praktikum findet in Berlin statt und bietet Ihnen die Möglichkeit, praktische Erfahrungen in einem dynamischen Team zu sammeln, während Sie einen Beitrag zur digitalen Transformation des Handwerks leisten.

Leistungen

Welcome-Veranstaltung und Einblicke in verschiedene Abteilungen

Starkes Netzwerk und gemeinsame Aktivitäten

Qualifikationen

Erste Erfahrungen in der Verarbeitung und Analyse von Daten.
Interesse an Cloud-Technologien (z.B. AWS, GCP, Azure).

Aufgaben

Entwicklung eines Services zur Datenextraktion aus verschiedenen PDF-Dokumenten.
Implementierung einer Funktion zum visuellen Vergleich von Dokumenten.
Untersuchung und Bewertung bestehender Technologien zur PDF-Verarbeitung.

Kenntnisse

Datenanalyse

Big Data Technologien

Programmierung in Python

SQL

Verhandlungssichere Englischkenntnisse

Deutschkenntnisse

Ausbildung

Master-Studium in einem MINT-Bereich

Tools

PyTorch

Transformers

FAISS

OpenCV

Abschlussarbeit Big Data - PDF-Datenextraktion, Berlin

Zeit für deine Zukunft. Zeit für Würth.

Würth ist führender Hersteller von Befestigungstechnik für die professionelle Anwendung. Als echte Macherinnen und Macher sind wir stets mit Leidenschaft bei der Sache. Hohe Eigenmotivation, große Gestaltungsfreiräume und eine starke Kollegialität zeichnen die Kultur in unserem Familienunternehmen Würth aus. Ein Praktikum bei Würth bietet dir den perfekten Baustein für deine berufliche Karriere. Klingt das gut für dich? Dann entdecke jetzt deine Einstiegsmöglichkeiten und werde Teil der Würth Familie. Es ist Zeit für eine neue Herausforderung.

Das erwartet dich

Big Data, Künstliche Intelligenz und Machine Learning werden in der heutigen Geschäftswelt immer wichtiger. Das Big Data Berlin Team ist verantwortlich für die Entwicklung von datengestützten Software-Produkten für die Adolf Würth GmbH. Sei ein Pionier und trage zur digitalen Transformation des Handwerks bei. Dieses Projekt zielt darauf ab, eine flexible und robuste Lösung zur Extraktion von Daten aus PDF-Dokumenten zu entwickeln. Da PDF-Dokumente häufig als Datenquellen verwendet werden, jedoch sehr unterschiedliche Strukturen aufweisen können, besteht ein erheblicher Bedarf an einer einheitlichen Lösung, die diese Vielfalt abdeckt und in einen automatisierten Prozess überführt.

Folgende Aufgaben warten auf dich:

Vielfältige Dokumentenstruktur: Entwicklung eines Services, der mit verschiedenen Arten von PDFs umgehen kann, unabhängig davon, ob es sich um digital-erzeugte Dokumente mit Text- und Bildebene oder gescannte Dateien handelt.
Einheitliche Lösung: Schaffung einer einheitlichen Methode zur zuverlässigen Datenextraktion aus unterschiedlich formatierten PDFs.
Visueller Vergleich: Implementierung einer Funktion, die den visuellen Vergleich zwischen dem Originaldokument und den extrahierten Informationen ermöglicht, um die Genauigkeit der Extraktion zu überprüfen.

Leistungsnachweise: Spezielle Anwendung zur Extraktion von Informationen aus Leistungsnachweisen, die oft in PDF-Form vorliegen und für die Weiterverarbeitung standardisiert werden müssen.

Ad-Hoc Dokumente: Informationsextraktion aus fotografierten oder gescannten Dokumenten verschiedenster Herkunft.

Technologienrecherche: Untersuchung und Bewertung bestehender Technologien und Methoden zur PDF-Verarbeitung und Datenextraktion.

Setup und Vorbereitung von Testdaten: Sammlung und Aufbereitung von PDF-Dokumenten unterschiedlicher Formate und Strukturen für die Entwicklung und das Testen.

Serviceentwicklung auf AWS: Implementierung und Bereitstellung des Datenextraktors als Cloud-basierter Service auf AWS, um Skalierbarkeit und Zuverlässigkeit sicherzustellen.

Das erwarten wir

Master-Studium in einem MINT-Bereich, z.B. Informatik, Statistik, Mathematik oder vergleichbaren quantitativen Disziplinen (Biochemie, Astronomie, empirische Sozialforschung, Computerlinguistik, Supply Chain Management, etc.)
Erste Erfahrungen in der Verarbeitung und Analyse von Daten
Erste Erfahrungen mit Big-Data-Technologien und Kodierung in SQL und Python
Erfahrungen in der Anwendung von Bibliotheken wie PyTorch, Transformers, PEFT, FAISS und OpenCV
Interesse an Cloud-Technologien (z.B. Databricks, AWS, GCP, Azure) und Big-Data-Architekturen (z.B. Apache Spark, Kafka, Elastic)

Verhandlungssichere Englischkenntnisse und gute Deutschkenntnisse

Zeit für deine Zukunft. Zeit für Würth.

Das erwartet dich

Folgende Aufgaben warten auf dich:

Vielfältige Dokumentenstruktur: Entwicklung eines Services, der mit verschiedenen Arten von PDFs umgehen kann, unabhängig davon, ob es sich um digital-erzeugte Dokumente mit Text- und Bildebene oder gescannte Dateien handelt.
Einheitliche Lösung: Schaffung einer einheitlichen Methode zur zuverlässigen Datenextraktion aus unterschiedlich formatierten PDFs.
Visueller Vergleich: Implementierung einer Funktion, die den visuellen Vergleich zwischen dem Originaldokument und den extrahierten Informationen ermöglicht, um die Genauigkeit der Extraktion zu überprüfen.
Leistungsnachweise: Spezielle Anwendung zur Extraktion von Informationen aus Leistungsnachweisen, die oft in PDF-Form vorliegen und für die Weiterverarbeitung standardisiert werden müssen.
Ad-Hoc Dokumente: Informationsextraktion aus fotografierten oder gescannten Dokumenten verschiedenster Herkunft.
Technologienrecherche: Untersuchung und Bewertung bestehender Technologien und Methoden zur PDF-Verarbeitung und Datenextraktion.
Setup und Vorbereitung von Testdaten: Sammlung und Aufbereitung von PDF-Dokumenten unterschiedlicher Formate und Strukturen für die Entwicklung und das Testen.
Serviceentwicklung auf AWS: Implementierung und Bereitstellung des Datenextraktors als Cloud-basierter Service auf AWS, um Skalierbarkeit und Zuverlässigkeit sicherzustellen.

Das erwarten wir

Master-Studium in einem MINT-Bereich, z.B. Informatik, Statistik, Mathematik oder vergleichbaren quantitativen Disziplinen (Biochemie, Astronomie, empirische Sozialforschung, Computerlinguistik, Supply Chain Management, etc.)
Erste Erfahrungen in der Verarbeitung und Analyse von Daten
Erste Erfahrungen mit Big-Data-Technologien und Kodierung in SQL und Python
Erfahrungen in der Anwendung von Bibliotheken wie PyTorch, Transformers, PEFT, FAISS und OpenCV
Interesse an Cloud-Technologien (z.B. Databricks, AWS, GCP, Azure) und Big-Data-Architekturen (z.B. Apache Spark, Kafka, Elastic)
Verhandlungssichere Englischkenntnisse und gute Deutschkenntnisse

Wir bitten dich bei deiner Bewerbung auf das Thema einzugehen.

Das bieten wir dir

Dich erwarten eine Welcome-Veranstaltung und fachübergreifende Einblicke in verschiedenste Abteilungen. Außerdem kannst du dich auf ein starkes Netzwerk und gemeinsame Aktivitäten freuen. Werde Teil der Würth-Familie und sammle Praxiserfahrung in einem familiären und herzlichen Arbeitsklima!

Unser Versprechen an dich: Kein Tag bei Würth wird langweilig sein!

Zeitraum der Arbeit:

Flexibel, idealerweise ab März 2025 für 6 Monate

Arbeitsort: In unserem Office in Berlin Adlershof (min. 2 Tage in der Woche) und im Mobile Office (Home Office).

Praktikumsvergütung:

1.400 € brutto pro Monat: Pflichtpraktikum
2.262 € brutto pro Monat: Freiwilliges Praktikum/Abschlussarbeit (4-6 Monate)

Hol dir deinen kostenlosen, vertraulichen Lebenslauf-Check.

eine PDF-, DOC-, DOCX-, ODT- oder PAGES-Datei bis zu 5 MB per Drag & Drop ablegen.