Dieser Blogbeitrag begleitet meine WhatsApp-Gruppe zum Thema KI. Du findest hier zusammengefasst die Informationen und Links. Wenn du neu in der Gruppe bist, findest du hier all die interessanten Informationen und Links, die bis dato über die Gruppe gesendet wurden.
Ich erweitere diesen Blogartikel mit den nützlichen Informationen und Links aus der Gruppe.
1. LLMs (Large Language Models)
Large Language Modelle sind leistungsstarke maschinelle Lernmodelle, die eine große Menge an Textdaten verwenden, um Sprachaufgaben zu lösen. Sie werden häufig für Aufgaben wie maschinelle Übersetzung, Textgenerierung und Spracherkennung eingesetzt. Die Modelle werden mit Hilfe von tiefen neuronalen Netzen trainiert und können komplexe Sprachmuster verstehen und generieren. Durch ihre Fähigkeit, natürliche Sprache zu verstehen und zu generieren, sind sie sehr vielseitig einsetzbar und können in vielen verschiedenen Anwendungen eingesetzt werden. Kurz: Du kannst Dich mit Ihnen unterhalten, Fragen stellen und Probleme lösen.
1.1. ChatGPT (Open AI)
ChatGPT ist ein Allround-KI-Chat-Tool. Es unterstützt im Rahmen der Chat-Unterhaltungen folgende Features: Dialogmodus mit Sprachausgabe, klassischer Chat, Datenanalyse bereitgestellter Inhalte, Surfen im Internet, Lösung komplexer Probleme, Programmieren, Übersetzen, Code überprüfen, Texte erstellen, Texte korrigieren, Bilder erzeugen, Bilder beschreiben, Audio erkennen, Audio beschreiben, Audio erzeugen, Dokumente erzeugen und vieles mehr. Adaptive GPTs (erstellen angepasster eigener Chatbots). Einige der Features sind nur in der Premium-Version verfügbar.
- Web-Client von ChatGPT
- iOS-App von ChatGPT
- Android-App von ChatGPT
- Weitere Informationen zu OpenAI (englisch)
2. Bild-Beschreibungstools (Erkennungstools)
Bildbeschreibungstools sind äußerst hilfreich für blinde und sehbehinderte Personen, um ihren Nahbereich zu erkunden. Es gibt verschiedene Tools zur Bildbeschreibung, einschließlich ChatGPT (siehe 1.1.).
2.1. Be My Eyes (Be My AI)
“Be My Eyes” ist eine innovative mobile App, die darauf abzielt, blinden und sehbehinderten Menschen im Alltag zu helfen. Durch die Verwendung von Videotelefonie verbindet die App Menschen mit Sehbehinderungen mit freiwilligen Helfern aus der ganzen Welt. Diese Freiwilligen leisten dann per Videoanruf visuelle Unterstützung, um den sehbehinderten Nutzern bei alltäglichen Aufgaben zu helfen – sei es das Lesen von Etiketten, das Navigieren in unbekannten Umgebungen oder das Erkennen von Farben. Die App hat neben der Direktkommunikation mit Helfern eine KI Bilderkennung, die hervorragende Arbeit leistet.
3. Bilderzeugung mit KI
Kommt noch
4. Sprachausgabe mit KI
Das Besondere an einer KI-Sprachausgabe ist, dass sie besonders natürlich und betont klingen kann. Eine normale TTS muss für eine bestimmte Sprache entwickelt sein. Aus diesem Grund gibt es auch für verschiedene Sprachen immer eine eigene TTS. Bei einer KI-Sprachsynthese ist das nicht zwangsläufig so. So verändert sich die Charakteristik der Stimme beim Wechsel der Sprache nicht. Ist die Sprache homogen auf eine bestimmte Sprache trainiert, so spricht sie in anderen Sprachen mal mehr und mal weniger mit Akzent. Manche KI-Sprachmodelle sind auch auf mehrere Sprachen trainiert. Jedoch werden KI-Sprachmodelle vornehmlich auf eine Sprache trainiert. Leider benötigt die Sprachsynthese häufig viel Rechenkapazität, sodass sie sich nicht zur Implementierung in ScreenReader eignen, weil die Latenz zu groß ist. Dennoch lassen sich damit viele andere Projekte umsetzen. KI-Sprachsynthese ermöglicht auch das Klonen von Stimmen. ChatGPT (siehe 1.1.) bietet auch eine Sprachsynthese im neuen Dialogmodus.
4.1. ElevenLabs
ElevenLabs entwickelt Text-to-Speech-Technologie mit realistischen Stimmen für verschiedene Anwendungen wie Audiobücher, Podcasts und virtuelle Assistenten. Die Vielseitigkeit der Technologie ermöglicht die Imitation von verschiedenen Dialekten, Akzenten und Sprachen, was neue Möglichkeiten in der digitalen Kommunikation eröffnet. Zur Webseite von ElevenLabs