нка - Самое интересное в блогах

Следующие 30 »

rss_habr

Иерархическое мультиагентное обучение с подкреплением. Начало синтаксиса

Суббота, 30 Июля 2022 г. 15:14 (ссылка)

Вопрос в том, как могут самоорганизовываться автоматы из неразмеченных данных, эволюционируя до использования языка.

https://habr.com/ru/post/679990/?utm_source=habrahabr&utm_medium=rss&utm_campaign=679990

Комментарии (0)Комментировать В цитатник или сообщество

rss_habr

[Перевод] Как работают регулярные выражения, или Движок regex с анимацией

Среда, 20 Июля 2022 г. 23:17 (ссылка)

К старту курса по Fullstack-разработке на Python показываем, как работают регулярные выражения, на примере их движка с визуализацией, которую вы видите на КДПВ. Под катом подробности и код.

https://habr.com/ru/post/677402/?utm_source=habrahabr&utm_medium=rss&utm_campaign=677402

Комментарии (0)Комментировать В цитатник или сообщество

rss_habr

НКА: игры без знания о замыслах других

Понедельник, 13 Июня 2022 г. 12:06 (ссылка)

На стене выключатель. Нажатие которого иногда приводит к цели, иногда нет. Что означает, что выключателем может быть не то, что мы предполагаем.

Вопрос можно поставить абстрактно. Пусть имеется множество {a, b, c, d}. Некоторые из элементов могут быть состояниями, некоторые действиями.

Предположим, что действиями будут {a, b}, состояниями {c, d}. Пусть имеем: с|d=a(c), с|d=b(c), c=a(d), с|d=b(d).

Здесь "|" означает "либо". Смысл записи с|d=b(d): из состояния d при действии b следует либо c, либо d.

Попробуем иначе интерпретировать. Предполагаем: действия {a, c}, состояния {b, d}. Пусть имеем: b=a(b), b|d=c(b), d=a(d), b=c(d).

Разница, если ее оценить количественно, в более однозначном поведении второй гипотезы. В первом случае коэффициент однозначности, взятый как отношение как если бы все переходы были бы однозначны к всем случившимся переходам, будет равен 4/7. Во втором случае он будет равен 4/5. Или, другими словами, мы имеем почти детерминированное пространство состояний. Для которого уже можно делать предсказания с приемлемой точностью.

Это было вступление. Теперь собственно к статье. Есть объект исследования (пространство состояний), однозначность которого достаточно высока. И есть несколько агентов, целью которых является достичь целевые состояния. Которые, в частности, могут и совпадать. Оговорюсь, что эти агенты не ведают о других агентах. Поэтому их ходы обусловлены только своими QL-картами, которые агенты формируют в результате исследования пространства состояния.

В противоположность играм, допускающих частичное или полное знание QL-карт других участников. Следствие - возможность оптимизировать маршрут при чередовании ходов, включая вариант эмпатии. Возможно, эта тема будет рассмотрена в дальнейшем.

https://habr.com/ru/post/671076/?utm_source=habrahabr&utm_medium=rss&utm_campaign=671076