Anwendungsbereiche und offene Datensätze
Viele Projekte im Bereich des Maschinellen Lernens können aufgrund fehlender Erfahrung nicht erfolgreich abgeschlossen werden, selbst wenn ausreichende Datenmengen vorhanden sind. Wenn die Daten unvollständig, von geringer Qualität oder unstrukturiert sind, wird es noch schwieriger, Modelle zu trainieren, und somit wird der Erfahrungsgewinn im Umgang mit Machine Learning-Algorithmen weiter verlangsamt.
Hier können offen und frei verfügbare Datensätze helfen, erste Erfahrungen zu sammeln und eigene Machine Learning-Ansätze zu testen. Aufgrund bestehender Geheimhaltungsverpflichtungen gibt es derzeit nur eine begrenzte Anzahl von öffentlich zugänglichen Datensätzen in der Produktion, die ohne klare Struktur auf verschiedenen Plattformen wie kaggle, ucirvine oder openml gespeichert sind.
In einer gemeinsamen Anstrengung des Fraunhofer IPT und des Fraunhofer FFB wurde auf der Grundlage umfangreicher Recherchen eine Tabelle mit öffentlich zugänglichen Datensätzen für die Produktion erstellt. Die Tabelle wird kontinuierlich gepflegt und um neu veröffentlichte Datensätze ergänzt.
Wenn Sie auf diese Übersicht über öffentlich verfügbare Datensätze verweisen wollen, zitieren Sie bitte das entsprechende Papier.