среда, 23 сентября 2015 г.

SVM

Компьютеры обошли людей в вербальном тесте IQ

https://nplus1.ru/news/2015/06/15/iqlearning

Иллюстрация одной из идей генеративной лингвистики по различению двух «is».Кадр: Is The Man Who Is Tall Happy/Partizan

Исследователи из Университета науки и технологий Китая совместно с коллегами из Microsoft Research разработали алгоритм, который, по словам создателей, способен обойти среднего человека в тесте вербального IQ. Алгоритм основан на принципах глубокого машинного обучения и при этом специально «заточен» под уже существующие тесты IQ. Исследование пока не принято к публикации и доступно только в виде препринта в архиве Корнельского университета, кратко о нем пишет Technology Review.

Созданный авторами алгоритм имеет две ключевые особенности: во-первых, в нем используется система классификации вопросов по типу, во-вторых, он учитывает наличие у слов нескольких значений.

Классификация по типу вопроса проводится стандартным для современного машинного обучения способом — методом опорных векторов, SVM. Этот метод способен эффективно разделять входящие данные на заранее определенное число групп при наличии достаточно большой и разнообразной обучающей выборки. 

Основная идея метода — перевод исходных векторов в пространство более высокой размерности и поиск разделяющей гиперплоскости с максимальным зазором в этом пространстве. Две параллельных гиперплоскости строятся по обеим сторонам гиперплоскости, разделяющей наши классы. Разделяющей гиперплоскостью будет гиперплоскость, максимизирующая расстояние до двух параллельных гиперплоскостей. Алгоритм работает в предположении, что чем больше разница или расстояние между этими параллельными гиперплоскостями, тем меньше будет средняя ошибка классификатора.

Вопросы, которые встречаются в вербальной части тестов IQ, ученые анализировали вручную. Из них было выделено несколько типов, в соответсвии с которым программа должна была проводить семантический анализ тем или иным образом.

Вопросы из вербальной части тестов IQ выглядят, например, так:

Изотерма относится к температуре так же, как изобара к: (1) атмосфере, (2) ветру, (3) давлению, (4) широте, (5) силе тока.

Такой тип вопросов авторы называют аналогиями. Другой тип вопросов относится к поиску синонимов или (отдельный тип) антонимов.

Какое из слов наиболее противоположно по смыслу слову «музыкальный»? (1) нестройный, (2) громкий, (3) лирический, (4) вербальный, (5) эвфонический.

Ключевым для поиска ответа на такие вопросы стало создание системы различения нескольких значений или оттенков значения у одного и того же слова. Работает она следующим образом. Вначале авторы строят стандартную для семантического анализа матрицу частоты встречаемости слов. На основе существующего корпуса текстов (в данном случае это были статьи Википедии) определяется, насколько часто разные слова (например, «натянутый» или «зеленый») встречается поблизости от каждого из анализируемых слов (например, «лук»). Каждому слову таким образом сопоставляется вектор встречаемости вместе с ним других слов. Размерность этого вектора соответствует общему количеству отдельных слов в корпусе. 

Однако обычно при этом не учитывается, что одно и то же слово может иметь разные значения. В новой работе авторы попытались решить эту проблему с помощью кластеризации: вектор каждого слова они пропускали через процедуру поиска отдельных значений («подслов»), с которым по-разному группируются другие слова.

По словам ученых, подход оказался успешным: алгоритм смог обойти в тестировании добровольцев, привлеченных к эксперименту через сервис Mechanical Turk. В среднем добровольцы отвечали правильно на 46,2 процента вопросов, тогда как самая эффективная версия алгоритма находила верные решения в 50,86 процентах случаев. По словам авторов, такие результаты занимают промежуточное положение между средними результатами бакалавров и обладателей магистерской степени.

Результаты вербального теста IQ у разных групп добровольцев и разных версий алгоритма. Чем выше значение, тем лучше результат.

Huazheng Wang, Bin Gao, Jiang Bian, Fei Tian, Tie-Yan Liu

Подход с матрицей встречаемости используется при анализе текстов довольно давно. На нем основаны многие, хотя и не все системы автоматического перевода — считается, что если векторы встречаемости слов в разных языках похожи, то значения слов совпадают. Таким образом, например, работает сервис Google Translate. Менее популярной альтернативой данного подхода является составление словаря экспертом.


Лингвисты из Массачусетского технологического института статистически подтвердили «гипотезу минимизации длины зависимости», согласно которой порядок слов во всех человеческих языках не допускает слишком далекого расположения зависимых слов в предложении. По словам ученых, им впервые удалось показать верность этой гипотезы на большой выборке языков из 10 языковых семей. Исследование опубликовано в журнале Proceedings of the National Academy of Sciences, кратко о нем пишет Science.

Гипотеза минимизации длины зависимости опирается на интуитивное представление о том, что внимание человека при речи и слушании ограничено. Следовательно, на понимание предложения с высокой длиной зависимости должно уходить больше усилий (и, в конце концов, метаболической энергии), чем на понимание предложения с низкой длиной. Физиологических данных о том, что это так, пока нет. Однако новая работа поддерживает гипотезу со стороны лингвистики.https://nplus1.ru/news/2015/08/04/dlm

Мемы&медиавирусы

Loading...