V současné době probíhá tvrdý boj mezi mezinárodními technologickými korporacemi o prvenství v oblasti vytváření a trénování modelů umělé inteligence. Své vlastní modely již začali vyvíjet takoví průmysloví giganti jako Google a Apple. Společnost OpenAI, která dala světu proslulý neuronový jazykový model ChatGPT, si však v tomto směru stále drží prvenství.
Den před mezinárodní vývojářskou konferencí Google I/O 2024, kde měl Google oznámit svůj model umělé inteligence Gemini, představili vývojáři OpenAI aktualizovanou verzi ChatGPT.
Nový model se nazývá GPT-4o. Písmeno »o« v názvu symbolizuje latinskou předponu omni, jejíž význam lze do ruštiny přeložit jako »všichni«. Vývojáři tak chtěli ukázat multimodalitu a nové funkce aktualizované verze jazykového modelu.
Podle technického ředitele společnosti OpenAI Miry Muratiho se GPT-4o inteligencí vyrovná jejich nejnovějšímu modelu GPT-4 . Hlavní inovací aktualizace je přirozenější interakce člověka s počítačem.
Jde o to, že GPT-4o dobře vnímá nejen text, ale také zvukové a obrazové informace. A rychlost, s jakou program reaguje na hlasové zprávy, se příliš neliší od rychlosti reakce živých lidí: jestliže v hlasovém režimu komunikace minulé modely ChatGPT odpovídaly uživatelům se zpožděním v rozmezí 2,8-5,4 sekundy, u GPT-4o se tato doba výrazně zkrátila. Podle vývojářů analyzuje umělá inteligence hlasové informace za 232-320 ms (0,232-0, 32 s).
Tohoto výsledku bylo dosaženo díky tomu, že se program odklonil od třístupňového řetězce zpracování zvukové informace, který byl ve verzích GPT-3.5 a GPT-4. Dříve probíhal proces následovně: jeden model přepisoval zvuk, poté jedna nebo druhá verze ChatGPT zobrazovala text odpovědi a třetí model převedl výsledek do zvukové podoby a přečetl jej. V důsledku toho se prodloužila doba a utrpěla kvalita odpovědí, protože některé důležité informace unikly »mozku« řetězce. Jazykový model jednoduše neměl schopnost přímo vnímat řeč uživatele: reagovat na šum v pozadí, analyzovat tón hlasu atd.
V poslední ohlášené aktualizaci vytvořili vývojáři OpenAI jediný model pro komplexní analýzu informací z různých zdrojů, zvuku, videa a textu. Výsledkem je, že všechna vstupní a výstupní data zpracovává stejná neuronová síť.
Díky této inovaci se výkon GPT-4o ve srovnání s GPT-4 a GPT-3.5 zvýšil. Vývojáři předvedli nové schopnosti umělé inteligence: analýzou informací z přední kamery a reproduktorů telefonu dokázal program popsat oblečení a emoce osoby sedící před ním, vlastnosti místnosti, ve které se nachází, a dokonce si všimnout, když se k němu zezadu přiblížil kolega a nasadil »parohy«. Poté GPT-4o dokonce složil a zahrál píseň na základě toho, co viděl a slyšel.
Sami výrobci přiznávají, že ještě plně nevyužili potenciál, který kombinace těchto metod vnímání nabízí. Tato aktualizace je však prvním krokem k přeměně ChatGPT v plnohodnotného asistenta.
GPT-4o lépe zvládá cizí jazyky. Umělou inteligenci lze nyní používat jako tlumočníka v reálném čase. Jak vývojáři předvedli, program dokáže rychle překládat řeč, což uživatelům otevírá nové možnosti a zajímavé perspektivy. Například sledování pořadů v jiných jazycích v přímém přenosu nebo nového dílu oblíbeného televizního seriálu bez čekání na zveřejnění překladu.
Vývojáři navíc zvýšili výkon programu v cizích jazycích, aby byl ChatGPT pro zahraniční uživatele užitečnější. Podařilo se jim tak snížit počet tokenů, které jsou potřeba ke zpracování textů v angličtině a dalších jazycích.
Tokoney jsou posloupnosti textových znaků, na které umělá inteligence rozkládá zprávy uživatelů, aby porozuměla informacím v nich obsaženým a analyzovala je.
Nový GPT-4o je k dispozici všem uživatelům ChatGPT bez ohledu na úroveň předplatného. Placení uživatelé však budou mít pětkrát vyšší přístupový limit. Po překročení limitu přístupu se program automaticky přepne na starší verzi: GPT-4 pro placené uživatele a GPT-3.5 pro uživatele zdarma. Hlavní novinka aktualizace, totiž hlasová komunikace, je však v současné době dostupná pouze omezenému počtu důvěryhodných partnerů OpenAI. Jak vývojáři vysvětlili, je to kvůli tomu, že existuje riziko zneužití nové funkce. V červnu budou mít přístup i placení předplatitelé.
(cik, TASS)