Proč A.I. Může bojovat o porozumění arabštině

$config[ads_kvadrat] not found

My Demons - Starset - (Фанатское видео с текстом)

My Demons - Starset - (Фанатское видео с текстом)
Anonim

Ve světě umělé inteligence jsou data králem. Čím více máte, tím lépe se vaše nástroje stávají, protože systémy jsou schopny se „naučit“ více o tom, co očekávat. Ale v závislosti na platformě A.I. Podle údajů Miriam Redi, vědecké pracovnice Yahoo Labs, jsou některé jazyky lépe zobrazeny než jiné.

„Například například Flickr, kde bereme naše data, některé jazyky jsou velmi málo zastoupeny,“ řekla Redi, která vystoupila ve čtvrtek na londýnském summitu Deep Learning. "Takže máme angličtinu, miliony obrázků pro angličtinu, ale máme možná 100 000 pro arabštinu."

Rediho tým pracuje na nástroji, který dokáže identifikovat neviditelné prvky obrazu, jako jsou kulturní hodnoty a emocionální konotace. Nástroj analyzuje text připojený k veřejně dostupným obrazům na Flickr. Postupem času, A.I. začíná chápat, proč může někdo označit obrázek „šťastnou stranou“ nebo „nepříjemným momentem“, ale tyto myšlenky budou stále přesnější, protože nástroj analyzuje více obrázků.

„Přesnost detekce sentimentu v obrazech pro arabské jazyky bývá bohužel nižší, protože nemáme dostatek dat,“ řekla Redi.

V jazycích, které měly větší množství dat, si Rediho tým všiml několika zajímavých vzorů. Románské jazyky, jako je francouzština a španělština, se projevovaly podobným způsobem, zatímco italština se zdá být jediným jazykem, ve kterém uživatelé identifikovali snímky s pojmem „daňový únik“.

Jazykové bariéry zůstávají pro AI stále problémem. výzkumných pracovníků. Každý, kdo používá službu Google Translate, bude vědět, že přepínání jazyků není nikdy tak jednoduché, jak to zní. Nový vývoj však mění věci, s tím, že Facebook letos v létě oznamuje, že se blíží svému snu o jedné jazykové sociální síti a automaticky překládá texty pro uživatele.

Vývoj v odstraňování jazykových bariér může pomoci podpořit mezinárodní komunikaci, ale u projektů, jako je Redi's, neexistuje reálná náhrada za lidská data.

$config[ads_kvadrat] not found