Ivo Gasparini

TreeGPT: Generative Pre-trained Transformer für forstliche Anwendungen mit 3D-Punktwolken

· Ivo
LiDAR-Punktwolke eines Waldes
Abbildung 1: Beispiel einer segmentierten Punktwolke eines Waldes im Kanton Neuenburg, die für das Pre-Training verwendet wurde.

📄 Master Thesis - TreeGPT


Für meine Masterarbeit habe ich mich einer Herausforderung gestellt, die mein Interesse seit Jahren weckt: Die Nutzung von LiDAR-Punktwolken zur Generierung automatisierter Waldinventare.

Ich erinnere mich, als ich Waldwissenschaften studierte, dass eines der wiederkehrenden Probleme in der forstlichen Planung der Mangel an genauen Daten über das betreffende Waldgebiet war. Wie kann man effektiv den Hiebsatz, die Umtriebszeit, die Baumartenzusammensetzung und jegliche waldbaulichen Eingriffe planen, ohne eine genaue Übersicht über das, womit wir arbeiten? Die Daten in diesem Bereich stammen oft aus der nationalen Forstinventar (LFI), deren Auflösung unzureichend ist, wenn einzelne Waldgebiete betrachtet werden. Früher wurden manuelle Stichprobeninventare systematisch von der öffentlichen Hand flächendeckend organisiert, aber heutzutage sind die Kosten für Bemühungen dieser Grössenordnung prohibitiv geworden.

Die LiDAR-Technologie erfasst schnell und kostengünstig ein digitales 3D-Modell der Oberfläche, diskretisiert in einzelne Punkte, die in sogenannten “Punktwolken” gesammelt werden (siehe Abbildung 1). Da wir je nach Auflösung in der Lage sind, einzelne Bäume, ihre Teilen visuell zu unterscheiden und die Baumart aus Scans von Waldgebieten zu erkennen, ist die Schlussfolgerung offensichtlich: theoretisch sollte auch ein Computer dazu in der Lage sein.

Computer Vision bei 2D-Bildern ist ein weitgehend entwickeltes und etabliertes Gebiet, während ihre Anwendung auf 3D-Daten noch relativ in den Kinderschuhen steckt. Insbesondere die Arbeit mit Punktwolken bringt verschiedene Herausforderungen mit sich, die mit ihrer Unregelmässigkeit und der Spärlichkeit und Redundanz der darin enthaltenen räumlichen Informationen zusammenhängen, was die rechnerischen Aspekte erheblich kompliziert.

Die Idee, Self Supervised Learning (SSL) zu verwenden (ein Paradigma, bei dem sich ein neuronales Netzwerk selbst auf nicht kategorisierten Daten trainiert), stellt die logische Entwicklung in diesem Bereich dar. Die Technik hat mit dem Generative Pre-Trained Transformer (GPT) im Bereich des Natural Language Processing (NLP) an Bedeutung gewonnen: Durch die Anwendung auf praktisch das gesamte Internet-Korpus wurde ChatGPT und die KI-“Revolution” erreicht. Daher schien mir die Verwendung von PointGPT eine stimulierende und vielversprechende Herausforderung zu sein, um diesen Ansatz auf Computer Vision mit Punktwolken im forstlichen Bereich zu testen.

Um den Arbeitsumfang zu begrenzen, konzentrierte ich mich auf die Erkennung von Baumarten. Die Confusion Matrix sieht nicht schlecht aus (Abbildung 2). Das Pre-Training erforderte endlose Experimente und Versuche, um schliesslich zu einem ziemlich glatten Verlauf zu gelangen (Abbildung 3).

Ich wünsche den Interessierten eine gute Lektüre. Die vollständige Thesis steht am Seitenanfang zum Download bereit.

Konfusionsmatrix
Abbildung 2: Ergebnisse auf dem Validierungsset.
Rekonstruktionsverlust während des Pre-Trainings
Abbildung 3: Verlauf des Loss auf dem Validierungsset während der Pre-Training-Phase.