Reproduzierbare Textanalysen mit Topic Modeling
Author(s) / Creator(s)
Bittermann, André
Abstract / Description
Vortrag vom 02.11.2022 im Rahmen der Vortragsreihe "Practices and Tools of Open Science (PTOS)"
Topic Modeling ist eine beliebte Text-Mining-Methode, um die zentralen Themen in großen Textsammlungen zu finden. Dabei ermittelt ein Algorithmus Gruppen von Wörtern, die in den Texten häufig gemeinsam vorkommen. Diese Wortgruppen werden als "Topics" bezeichnet. Da somit Textsammlungen beliebiger Größe automatisiert ausgewertet können, kann Topic Modeling ein aufschlussreiches Werkzeug für verschiedene textbasierte Anwendungen sein, etwa bei Social-Media-Studien oder in der Psychotherapieforschung.
Auch wenn es sich bei Topic Modeling um ein Verfahren des "unsupervised machine learning" handelt, müssen viele Parameterentscheidungen von der analysierenden Person selbst getroffen werden. Da diese Entscheidungen starke Auswirkungen auf die Ergebnisse haben können und zum Teil auf Zufallszahlen beruhen, sind eine gute Dokumentation und frei verfügbarer Analyse-Code entscheidend für reproduzierbares Topic Modeling.
In dieser einführenden Demonstration wird die etablierte Topic-Modeling-Variante "Latent Dirichlet Allocation" vorgestellt und auf einen frei verfügbaren Datensatz angewandt. Ein besonderer Schwerpunkt liegt auf Topic-Validität und Topic-Reliabilität – zwei oft übersehene, aber wichtige Modelleigenschaften. Anhand eines Beispiels wird gezeigt, wie die Analyse durch transparenten und detaillierten Code reproduzierbar wird.
Außerdem wird eine kurze Einführung in PsychTopics (psychtopics.org) gegeben, das Open-Source-Tool des ZPID zur Erkundung psychologischer Forschungsthemen und -trends. Dabei werden mit Hilfe eines neuartigen Topic-Modeling-Ansatzes Themen in psychologischen Publikationen dynamisch identifiziert und in einer R Shiny App interaktiv dargestellt.
Persistent Identifier
Date of first publication
2023-03-24
Publisher
ZPID (Leibniz Institute for Psychology)
Citation
-
PTOS 11_Reproduzierbare Textanalysen Mit Topic Modeling.webmUnknown - 287.32MBMD5: 9e96e0bf58b49cf09fb1c16c1c397bbb
-
There are no other versions of this object.
-
Author(s) / Creator(s)Bittermann, André
-
PsychArchives acquisition timestamp2023-03-24T11:42:54Z
-
Made available on2023-03-24T11:42:54Z
-
Date of first publication2023-03-24
-
Abstract / DescriptionVortrag vom 02.11.2022 im Rahmen der Vortragsreihe "Practices and Tools of Open Science (PTOS)"de_DE
-
Abstract / DescriptionTopic Modeling ist eine beliebte Text-Mining-Methode, um die zentralen Themen in großen Textsammlungen zu finden. Dabei ermittelt ein Algorithmus Gruppen von Wörtern, die in den Texten häufig gemeinsam vorkommen. Diese Wortgruppen werden als "Topics" bezeichnet. Da somit Textsammlungen beliebiger Größe automatisiert ausgewertet können, kann Topic Modeling ein aufschlussreiches Werkzeug für verschiedene textbasierte Anwendungen sein, etwa bei Social-Media-Studien oder in der Psychotherapieforschung. Auch wenn es sich bei Topic Modeling um ein Verfahren des "unsupervised machine learning" handelt, müssen viele Parameterentscheidungen von der analysierenden Person selbst getroffen werden. Da diese Entscheidungen starke Auswirkungen auf die Ergebnisse haben können und zum Teil auf Zufallszahlen beruhen, sind eine gute Dokumentation und frei verfügbarer Analyse-Code entscheidend für reproduzierbares Topic Modeling. In dieser einführenden Demonstration wird die etablierte Topic-Modeling-Variante "Latent Dirichlet Allocation" vorgestellt und auf einen frei verfügbaren Datensatz angewandt. Ein besonderer Schwerpunkt liegt auf Topic-Validität und Topic-Reliabilität – zwei oft übersehene, aber wichtige Modelleigenschaften. Anhand eines Beispiels wird gezeigt, wie die Analyse durch transparenten und detaillierten Code reproduzierbar wird. Außerdem wird eine kurze Einführung in PsychTopics (psychtopics.org) gegeben, das Open-Source-Tool des ZPID zur Erkundung psychologischer Forschungsthemen und -trends. Dabei werden mit Hilfe eines neuartigen Topic-Modeling-Ansatzes Themen in psychologischen Publikationen dynamisch identifiziert und in einer R Shiny App interaktiv dargestellt.de_DE
-
Review statusunknown
-
External description on another websitehttps://leibniz-psychology.org/ptos/topic-modeling/
-
Persistent Identifierhttps://hdl.handle.net/20.500.12034/8154
-
Persistent Identifierhttps://doi.org/10.23668/psycharchives.12625
-
Language of contentdeu
-
PublisherZPID (Leibniz Institute for Psychology)
-
Is part ofPTOS, 2022, online
-
Is related tohttps://doi.org/10.23668/psycharchives.8382
-
Is related tohttps://leibniz-psychology.org/ptos/
-
Is related tohttps://github.com/abitter/PTOS
-
Is related tohttp://psychtopics.org
-
Dewey Decimal Classification number(s)150
-
TitleReproduzierbare Textanalysen mit Topic Modelingde_DE
-
DRO typemovingImage
-
DRO typeconferenceObject
-
Leibniz institute name(s) / abbreviation(s)ZPID
-
Visible tag(s)ZPID video portal
-
Visible tag(s)ZPID Conferences and Workshops