Moving Image Conference Object

Reproduzierbare Textanalysen mit Topic Modeling

Author(s) / Creator(s)

Bittermann, André

Abstract / Description

Vortrag vom 02.11.2022 im Rahmen der Vortragsreihe "Practices and Tools of Open Science (PTOS)"
Topic Modeling ist eine beliebte Text-Mining-Methode, um die zentralen Themen in großen Textsammlungen zu finden. Dabei ermittelt ein Algorithmus Gruppen von Wörtern, die in den Texten häufig gemeinsam vorkommen. Diese Wortgruppen werden als "Topics" bezeichnet. Da somit Textsammlungen beliebiger Größe automatisiert ausgewertet können, kann Topic Modeling ein aufschlussreiches Werkzeug für verschiedene textbasierte Anwendungen sein, etwa bei Social-Media-Studien oder in der Psychotherapieforschung. Auch wenn es sich bei Topic Modeling um ein Verfahren des "unsupervised machine learning" handelt, müssen viele Parameterentscheidungen von der analysierenden Person selbst getroffen werden. Da diese Entscheidungen starke Auswirkungen auf die Ergebnisse haben können und zum Teil auf Zufallszahlen beruhen, sind eine gute Dokumentation und frei verfügbarer Analyse-Code entscheidend für reproduzierbares Topic Modeling. In dieser einführenden Demonstration wird die etablierte Topic-Modeling-Variante "Latent Dirichlet Allocation" vorgestellt und auf einen frei verfügbaren Datensatz angewandt. Ein besonderer Schwerpunkt liegt auf Topic-Validität und Topic-Reliabilität – zwei oft übersehene, aber wichtige Modelleigenschaften. Anhand eines Beispiels wird gezeigt, wie die Analyse durch transparenten und detaillierten Code reproduzierbar wird. Außerdem wird eine kurze Einführung in PsychTopics (psychtopics.org) gegeben, das Open-Source-Tool des ZPID zur Erkundung psychologischer Forschungsthemen und -trends. Dabei werden mit Hilfe eines neuartigen Topic-Modeling-Ansatzes Themen in psychologischen Publikationen dynamisch identifiziert und in einer R Shiny App interaktiv dargestellt.

Persistent Identifier

Date of first publication

2023-03-24

Publisher

ZPID (Leibniz Institute for Psychology)

Citation

  • Author(s) / Creator(s)
    Bittermann, André
  • PsychArchives acquisition timestamp
    2023-03-24T11:42:54Z
  • Made available on
    2023-03-24T11:42:54Z
  • Date of first publication
    2023-03-24
  • Abstract / Description
    Vortrag vom 02.11.2022 im Rahmen der Vortragsreihe "Practices and Tools of Open Science (PTOS)"
    de_DE
  • Abstract / Description
    Topic Modeling ist eine beliebte Text-Mining-Methode, um die zentralen Themen in großen Textsammlungen zu finden. Dabei ermittelt ein Algorithmus Gruppen von Wörtern, die in den Texten häufig gemeinsam vorkommen. Diese Wortgruppen werden als "Topics" bezeichnet. Da somit Textsammlungen beliebiger Größe automatisiert ausgewertet können, kann Topic Modeling ein aufschlussreiches Werkzeug für verschiedene textbasierte Anwendungen sein, etwa bei Social-Media-Studien oder in der Psychotherapieforschung. Auch wenn es sich bei Topic Modeling um ein Verfahren des "unsupervised machine learning" handelt, müssen viele Parameterentscheidungen von der analysierenden Person selbst getroffen werden. Da diese Entscheidungen starke Auswirkungen auf die Ergebnisse haben können und zum Teil auf Zufallszahlen beruhen, sind eine gute Dokumentation und frei verfügbarer Analyse-Code entscheidend für reproduzierbares Topic Modeling. In dieser einführenden Demonstration wird die etablierte Topic-Modeling-Variante "Latent Dirichlet Allocation" vorgestellt und auf einen frei verfügbaren Datensatz angewandt. Ein besonderer Schwerpunkt liegt auf Topic-Validität und Topic-Reliabilität – zwei oft übersehene, aber wichtige Modelleigenschaften. Anhand eines Beispiels wird gezeigt, wie die Analyse durch transparenten und detaillierten Code reproduzierbar wird. Außerdem wird eine kurze Einführung in PsychTopics (psychtopics.org) gegeben, das Open-Source-Tool des ZPID zur Erkundung psychologischer Forschungsthemen und -trends. Dabei werden mit Hilfe eines neuartigen Topic-Modeling-Ansatzes Themen in psychologischen Publikationen dynamisch identifiziert und in einer R Shiny App interaktiv dargestellt.
    de_DE
  • Review status
    unknown
  • External description on another website
    https://leibniz-psychology.org/ptos/topic-modeling/
  • Persistent Identifier
    https://hdl.handle.net/20.500.12034/8154
  • Persistent Identifier
    https://doi.org/10.23668/psycharchives.12625
  • Language of content
    deu
  • Publisher
    ZPID (Leibniz Institute for Psychology)
  • Is part of
    PTOS, 2022, online
  • Is related to
    https://doi.org/10.23668/psycharchives.8382
  • Is related to
    https://leibniz-psychology.org/ptos/
  • Is related to
    https://github.com/abitter/PTOS
  • Is related to
    http://psychtopics.org
  • Dewey Decimal Classification number(s)
    150
  • Title
    Reproduzierbare Textanalysen mit Topic Modeling
    de_DE
  • DRO type
    movingImage
  • DRO type
    conferenceObject
  • Leibniz institute name(s) / abbreviation(s)
    ZPID
  • Visible tag(s)
    ZPID video portal
  • Visible tag(s)
    ZPID Conferences and Workshops