NeuroNet (WhatsApp Gruppe zum Thema AI/KI)

Dieser Blogbeitrag begleitet meine WhatsApp-Gruppe zum Thema KI. Du findest hier zusammengefasst die Informationen und Links. Wenn du neu in der Gruppe bist, findest du hier all die interessanten Informationen und Links, die bis dato über die Gruppe gesendet wurden.

Das Bild zeigt eine grafische Darstellung mit einem zentralen Motiv, das einer menschlichen Silhouette mit einem Kopf voller mechanischer und elektronischer Bauteile ähnelt – eine symbolische Darstellung eines Androiden oder einer KI. Der Kopf befindet sich in der Mitte eines Web-Browser-Fensters, das den Namen "BB LOG" im Titelbalken trägt, womit vermutlich ein Blog oder ein digitales Logbuch gemeint sein könnte. Um den Kopf herum gibt es eine Anordnung von Symbolen, die Personen darstellen, verbunden durch Leiterbahnen oder Pfade, was auf Vernetzung oder Kommunikation hindeuten könnte. Diese Elemente sind stilisiert, um wie ein Teil einer elektronischen Schaltung auszusehen, was die Verbindung zwischen Technologie und sozialer Interaktion unterstreicht. Der Hintergrund ist in einem tiefen Grünton gehalten, der an klassische Computerplatinen und digitale Schnittstellen erinnert.

Ich erweitere diesen Blogartikel mit den nützlichen Informationen und Links aus der Gruppe.

1. LLMs (Large Language Models)

Large Language Modelle sind leistungsstarke maschinelle Lernmodelle, die eine große Menge an Textdaten verwenden, um Sprachaufgaben zu lösen. Sie werden häufig für Aufgaben wie maschinelle Übersetzung, Textgenerierung und Spracherkennung eingesetzt. Die Modelle werden mit Hilfe von tiefen neuronalen Netzen trainiert und können komplexe Sprachmuster verstehen und generieren. Durch ihre Fähigkeit, natürliche Sprache zu verstehen und zu generieren, sind sie sehr vielseitig einsetzbar und können in vielen verschiedenen Anwendungen eingesetzt werden. Kurz: Du kannst Dich mit Ihnen unterhalten, Fragen stellen und Probleme lösen.

1.1. ChatGPT (Open AI)

ChatGPT ist ein Allround-KI-Chat-Tool. Es unterstützt im Rahmen der Chat-Unterhaltungen folgende Features: Dialogmodus mit Sprachausgabe, klassischer Chat, Datenanalyse bereitgestellter Inhalte, Surfen im Internet, Lösung komplexer Probleme, Programmieren, Übersetzen, Code überprüfen, Texte erstellen, Texte korrigieren, Bilder erzeugen, Bilder beschreiben, Audio erkennen, Audio beschreiben, Audio erzeugen, Dokumente erzeugen und vieles mehr. Adaptive GPTs (erstellen angepasster eigener Chatbots). Einige der Features sind nur in der Premium-Version verfügbar.

2. Bild-Beschreibungstools (Erkennungstools)

Bildbeschreibungstools sind äußerst hilfreich für blinde und sehbehinderte Personen, um ihren Nahbereich zu erkunden. Es gibt verschiedene Tools zur Bildbeschreibung, einschließlich ChatGPT (siehe 1.1.).

2.1. Be My Eyes (Be My AI)

“Be My Eyes” ist eine innovative mobile App, die darauf abzielt, blinden und sehbehinderten Menschen im Alltag zu helfen. Durch die Verwendung von Videotelefonie verbindet die App Menschen mit Sehbehinderungen mit freiwilligen Helfern aus der ganzen Welt. Diese Freiwilligen leisten dann per Videoanruf visuelle Unterstützung, um den sehbehinderten Nutzern bei alltäglichen Aufgaben zu helfen – sei es das Lesen von Etiketten, das Navigieren in unbekannten Umgebungen oder das Erkennen von Farben. Die App hat neben der Direktkommunikation mit Helfern eine KI Bilderkennung, die hervorragende Arbeit leistet.

3. Bilderzeugung mit KI

Kommt noch

4. Sprachausgabe mit KI

Das Besondere an einer KI-Sprachausgabe ist, dass sie besonders natürlich und betont klingen kann. Eine normale TTS muss für eine bestimmte Sprache entwickelt sein. Aus diesem Grund gibt es auch für verschiedene Sprachen immer eine eigene TTS. Bei einer KI-Sprachsynthese ist das nicht zwangsläufig so. So verändert sich die Charakteristik der Stimme beim Wechsel der Sprache nicht. Ist die Sprache homogen auf eine bestimmte Sprache trainiert, so spricht sie in anderen Sprachen mal mehr und mal weniger mit Akzent. Manche KI-Sprachmodelle sind auch auf mehrere Sprachen trainiert. Jedoch werden KI-Sprachmodelle vornehmlich auf eine Sprache trainiert. Leider benötigt die Sprachsynthese häufig viel Rechenkapazität, sodass sie sich nicht zur Implementierung in ScreenReader eignen, weil die Latenz zu groß ist. Dennoch lassen sich damit viele andere Projekte umsetzen. KI-Sprachsynthese ermöglicht auch das Klonen von Stimmen. ChatGPT (siehe 1.1.) bietet auch eine Sprachsynthese im neuen Dialogmodus.

4.1. ElevenLabs

ElevenLabs entwickelt Text-to-Speech-Technologie mit realistischen Stimmen für verschiedene Anwendungen wie Audiobücher, Podcasts und virtuelle Assistenten. Die Vielseitigkeit der Technologie ermöglicht die Imitation von verschiedenen Dialekten, Akzenten und Sprachen, was neue Möglichkeiten in der digitalen Kommunikation eröffnet. Zur Webseite von ElevenLabs