Multimodal matching – metody pozwalające na określenie podobieństwa pomiędzy tekstem a obrazem
Justyna Golec (Instytut Informatyki, Uniwesytet Pedagogiczny w Krakowie)
Abstract: Metody głębokiego uczenia pozwoliły na stworzenie nowych klas sieci neuronowych, dzięki którym możliwe jest określanie podobieństwa pomiędzy danymi o różnych modalnościach. Metody te należą do grupy algorytmów multimodal matching. Ciekawym przykładem z tej gałęzi metod są sieci pozwalające na określenie podobieństwa pomiędzy obrazem cyfrowym (np. zdjęciem) i tekstem pisanym językiem naturalnym. Można je w praktyce zastosować np. w celu generowania podsumowania tekstu w formie obrazków ilustracyjnych. Na seminarium omówiona zostanie przykładowa architektura rozwiązania, która może zostać wykorzystana do tego celu oparta na Vision Transformer, ResNet oraz BERT. Przedstawione zostaną też wstępne wyniki ewaluacji proponowanej metody.
Polishartificial intelligencequantum computing and informationhigh energy physicsnuclear physicscomputational physics
Audience: researchers in the discipline
Computer Physics and Quantum Informatics Seminar
Series comments: ul. Podchorążych 2, room 421N ("new buiding")
| Organizer: | Łukasz Bibrzycki* |
| *contact for this listing |
