Gemma-2b-it-Toxic-v2.0

Fine-tuned Language Model für Forschungszwecke zu unzensierten und toxischen Daten. Entwickelt von Google und MayStudios.

Modelldetails

Dieses Modell, benannt "Gemma-2b-it-Toxic-v2.0", ist eine feinabgestimmte Version eines größeren Sprachmodells, das speziell darauf zugeschnitten ist, Text basierend auf unzensierten und toxischen Daten zu verstehen und zu generieren. Es wurde entwickelt, um die Fähigkeiten und Grenzen von Sprachmodellen zu erforschen, wenn sie einem breiteren Spektrum menschlicher Äußerungen ausgesetzt sind, einschließlich solcher, die allgemein als unangemessen oder schädlich gelten.

Entwickler/Institution: Google, MayStudios (Sven Maibaum)

Verwendungszweck

Primärer Nutzen: Dieses Modell ist ausschließlich für Forschungszwecke gedacht, mit dem Ziel, die Auswirkungen und Herausforderungen des Trainings von KI-Systemen auf unzensierte Daten zu untersuchen. Dazu gehören die Verbreitung schädlicher Verzerrungen, die Generierung illegaler oder unethischer Inhalte und die technischen Herausforderungen bei der Filterung und Kontrolle solcher Ausgaben.

Sekundärer Nutzen: Das Modell kann auch zu Bildungszwecken dienen, um die Bedeutung ethischer KI-Entwicklung und die potenziellen Folgen der Vernachlässigung von Inhaltsmoderation in Trainingsdaten hervorzuheben.

Außerhalb des Geltungsbereichs: Die Verwendung dieses Modells zur Generierung von Inhalten für den öffentlichen Verbrauch oder in Anwendungen außerhalb kontrollierter, ethischer Forschungsumgebungen wird dringend abgeraten und gilt als nicht bestimmungsgemäß.

Trainingsdaten

Das "Gemma-2b-it-Toxic-v2.0"-Modell wurde auf einem Datensatz feinabgestimmt, der aus unzensierten und toxischen Inhalten besteht. Diese stammen von verschiedenen Online-Foren und Plattformen, die für weniger moderierte Interaktionen bekannt sind. Der Datensatz umfasst ein breites Spektrum an Sprache, von schädlichen und missbräuchlichen bis hin zu kontroversen und politisch aufgeladenen Inhalten. Des Weiteren wurden einige Inhalte von der Version 1 von "Svenni551/gemma-2b-it-toxic-dpo-v0.2" generiert.

Ethische Überlegungen

Risiken und Schäden: Das Modell hat das Potenzial, Texte zu generieren, die schädlich, beleidigend oder illegal sind. Nutzer werden dringend gebeten, die Auswirkungen der Verwendung oder Verbreitung solcher Inhalte zu berücksichtigen, einschließlich der Verfestigung von Vorurteilen, der Förderung von Hassreden und der rechtlichen Folgen der Verbreitung verbotenen Materials.

Maßnahmen zur Risikominderung: Es wurden Anstrengungen unternommen, um potenzielle Schäden zu mindern, darunter die Beschränkung des Zugangs zum Modell auf Forscher und Entwickler mit einem klaren und ethischen Anwendungsfall sowie die Implementierung von Schutzmaßnahmen in Anwendungen, die dieses Modell verwenden, um als schädlich oder unangemessen erachtete generierte Inhalte zu filtern oder zu kennzeichnen.

Einschränkungen: Das Verständnis und die Generierung von Inhalten durch das Modell sind inhärent von seinen Trainingsdaten beeinflusst. Daher kann es Verzerrungen, Ungenauigkeiten oder eine Neigung zur Generierung unerwünschter Inhalte aufweisen.

Empfehlungen: Nutzern dieses Modells wird empfohlen, den Umfang und die ethischen Grenzen ihrer Forschungs- oder Bildungsprojekte klar zu definieren, robuste Mechanismen zur Inhaltsmoderation und -filterung bei der Analyse der Modellausgaben zu implementieren und Ethikkommissionen oder Aufsichtsgremien bei der Planung von Forschungsvorhaben mit diesem Modell einzubinden.

Eingesetzte Technologien & Konzepte

AI/ML Python Transformers PyTorch Hugging Face Language Model Fine-Tuning DPO Ethical AI Research

Nutzungshinweise & Code-Beispiele

Die Nutzung des Modells erfordert die Installation von `transformers` und ggf. `accelerate` sowie `bitsandbytes` für Quantisierung. Die Code-Snippets auf der Hugging Face Seite zeigen die Implementierung für CPU, GPU, verschiedene Präzisionen und quantisierte Versionen.

Ein spezifisches Chat-Template muss für konversationelle Nutzung eingehalten werden: `<bos> <start_of_turn>user\n{user_message}<end_of_turn>\n<start_of_turn>model\n`.

Zum Modell auf Hugging Face

Alle Projekte anzeigen