"Яд ва-Шем" разработал языковую ИИ-модель для поиска имен неизвестных жертв Холокоста
Инновационный отдел "Яд ва-Шем" разработал языковую модель искусственного интеллекта, способную находить новые имена и идентификационные признаки в базе свидетельств. Благодаря ИИ-модели в Зал имен уже добавлена информация о 400 неизвестных жертвах Холокоста.
На сегодня в Зале имен "Яд ва-Шем" собрано 4,9 миллиона имен жертв Холокоста. Добавление каждого имени требует большой работы, которая ведется на основе базы свидетельств. В базе на сегодня хранится около 10 миллионов записей из различных источников в разных форматах и на разных языках.
Имя добавляется в Зал только после того, как оно будет идентифицировано. На основе базы свидетельств должны быть установлены обязательные идентификационные признаки: имя, фамилия, имя отца или матери, профессия или год рождения. Все признаки должны быть подтверждены экспертами. Как отмечает в своем материале "Калькалист", особенно трудно идентифицировать детей. Они часто упоминаются даже не по имени, а просто – "мальчик" или "девочка".
База свидетельств – трудный для работы источник. В ней есть данные на самых разных языках, аудио и видеозаписи, многие источники рукописные, что еще больше осложняет работу.
Эксперты "Яд ва-Шем" знают, что в свидетельствах встречаются многочисленные упоминания не только того, кто это свидетельство предоставил, но и многих других жертв. Поэтому давно стояла задача рассмотрения перекрестных упоминаний. По ним можно установить идентификационные признаки. Но вручную эта работа едва ли осуществима, учитывая состояние источников и объем базы. Причем сама база постоянно пополняется.
Ученые "Яд ва-Шем" обучили языковую модель, которая может распознавать такие перекрестные упоминания. Сначала модель обучалась на данных размеченных экспертами, а потом начала искать сама. Модель проделала работу достаточно быстро и успешно. На основе данных, найденных моделью в Зал добавлено 400 новых имен. Каждое имя было дополнительно подтверждено экспертами. Еще примерно столько же имен ждут подтверждения. По оценке экспертов каждые 20 тысяч свидетельств в базе содержат информацию, по крайней мере, о семи новых именах. Важным результатом работы ИИ-модели должна стать унификация самой базы свидетельств и подготовка их кратких описаний.