База данных внешних гиперссылок http://grid.krc.karelia.ru/webometrics/login.php?action=login Гостевой вход: guest/guest 2 из 10 Задачи рационального поведения в Вебе Присутствие целевых множеств в Вебе может быть значительно улучшено как за счет увеличения количества взаимных гиперссылок, так и за счет увеличения их связности с помощью сайтовкоммуникаторов. Далее рассматриваются три задачи: – задача расстановки гиперссылок в множестве сайтов, повышающая их присутствие в Вебе с точки зрения поисковых машин, – задача дележа затрат на создание веб-коммуникатора, – задача об оценке полезности участия в множестве сайтов, ссылающихся на один и тот же сайт-коммуникатор и имеющих обратные гиперссылки с него. 3 из 10 Задача расстановки гиперссылок n – количество сайтов-участников, ci – значимость i-го сайта, ci>0, i=1..n, X=(xij), i,j=1..n, xij=1, если существует ссылка от i-го сайта на j-й, xij=0, если нет. c1 c2 x13 Значимость (Google, Яндекс): – чем больше ссылок на ресурс, тем он «значимее», – c3 – c4 c5 чем больше значимость ресурса i, тем больше возрастает значимость ресурса j, если xij=1, чем больше исходящих ссылок от ресурса i, тем меньше приращение значимости каждого ресурса j, для которого xij=1. Зададим n xij ~ с j c j ∑ n ci i 1 ∑xik 0<<1 k 1 mi – максимально возможное количество ссылок от i-го на другие сайты, mi>0, i=1..n. 4 из 10 Задача 1: Задача 2: 2 n ~ c k n k 1 F X c~j min n xij j 1 n F X ∑c~j j → max j (1) xij j 1 1 cj xii = 0 , i = 1, n xij = 0,1, i = 1, n , j = 1, n n ∑x ij mi , i = 1, n (1’) .................(2) .................(3) ................(4) j 1 n ∑xij ≥1, i = 1, n j=1 Исследование (1’, 2-5): Исследование (1-5): xij Замена y = приводит к задаче линейного ij n ∑xik программирования k= 1 для её решения верно Y * yij * n * x y xik i1 i1 k 1 ............... n * x y xik in in k 1 n 1 x m ik i k 1 Приближенный алгоритм: в*каждой строке i* матрицы значение 1 получают те xij, для которых yij имеет максимальное значение в этой строке. .................(5) Строится функция Лагранжа 2 n ~ ck n n n k 1 ~ L( X , ) c j i (mi xij ) n j 1 i 1 j 1 n c j ck ( xrk xrj ) cr Находятся условия r 1 n r 1 t max 2 ct R ci xri cr i X* Приближенный алгоритм: в каждой строке i выбирается элемент t c наименьшим t и новым значением ci , наиболее близким к среднему по столбцу. 5 из 10 Апробация на данных Яндекса: 20 реальных сообществ, содержащих от 7 до 84 участников, в качестве c~i , i = 1, n приняты значения тИЦ, =0,85 (damping-factor - Brin, Page). Сообщества с согласованным поведением: • Сайты КарНЦ РАН, • Министерства РФ, • Баннерная сеть Ket.Ru, • Религия. Православие, • Целлюлозно-Бумажная Баннерная Сеть. 6 из 10 Задача о дележе затрат Веб-граф G (T,E,W) – сильно связный со взвешенными дугами, веса wi≥1. d(i,t) – длина кратчайшего пути из i в t, ∑d (i , t ) Критерий доступности сайта t на целевом множестве T : midd( t ) = i∈T ,i ≠t 1 с которого Владельцы сайтов – игроки договорились создать веб-коммуникаторn -h, обязательно будут сделаны гиперссылки c весом 1 на любой сайт из T и с каждого сайта из T будет сделана гиперссылка на h, имеющая вес 1. ∑d i, t h Тогда midd h (t ) i∈T ,i ≠t n -1 , middh(i)2. h Пример: 1 2 3 4 7 из 10 Z – стоимость сайта h, zi - взнос каждого игрока, Z ∑z . i i∈T Вопрос: каковы должны быть значения z1, z2, …, zn, справедливые (в некотором смысле) для каждого игрока-владельца сайта целевого множества? Коалиция S – (под)множество сайтов из T, участвующих в создании h, причем h будет ссылаться только на участников коалиции, и только они будут ссылаться на коммуникатор. Характеристическая функция для i-го участника v(i) = midd(i)–middhS(i) рассчитывается с учетом того, того что коммуникатор создается только для членов коалиции S, middhS(i) - средняя длина пути в вершину i из всех других вершин коалиции S, кроме h и её самой. Решение основано на разделении платы пропорционально компонентам вектора Шепли, строящемуся с учетом среднего вклада каждого участника в выигрыш гранд-коалиции, z1, z2, …, zn делится пропорционально величинам i S - 1!n - S ! ∑ (v( S ) - v( S \ i )) n! S⊆T 8 из 10 Взвешенный веб-граф КарНЦ РАН Одинаковый: Z={0.125, 0.125, 0.125, 0.125, 0.125, 0.125, 0.125, 0.125} Кооперативный: Z={0.000, 0.105, 0.169, 0.129, 0.105, 0.153, 0.169, 0.169} 9 из 10 Задача об участии в сообществе динамического каталога (СДК) Пользователи Веба p0 0 (головной сайт) pi Каталог ссылок 1 2 pi0 qj Рядовые сайты i 1-pi0 qjcat k k+1 n 1 n Известны qjcat – вероятность перехода с j-й позиции каталога, q1cat ≥ q2cat ≥… ≥ qkcat, qk+1cat = qk+2cat =… qncat =0. q0 Неизвестны: qj - вероятность перехода на любой рядовой сайт с j-й позиции каталога. pi - вероятность попадания пользователя на i-й сайт СДК, pi0 - вероятность перехода с i-го рядового сайта на головной сайт (вероятность того, что пользователь, попав на i-й рядовой сайт, останется на нем, равна 1-pi0 ); q0 - вероятность того, что пользователь, попав на головной сайт, останется на нем; 10 из 10 Обозначим ij - вероятность нахождения ссылки i-го рядового сайта на j-й позиции в каталоге, n ∀i = 1, n : qi = ∑q cat j ij Тогда j=1 n 0 Fi p0 (1 - q0 ) ∑q cat j ij - pi pi Доход от участия в СДК для i-го сайта: j 1 Для нахождения ij построена система n2+2n уравнений n n j =1 j ≠i j =1 j ≠i i , k -1 ∑ jk u j + i , k +1 ∑ jk d j - ik ( n n j=1 j ≠i j=1 j ≠i n n j =1 j ≠i j =1 j ≠i ∑ j ,k -1d j - ∑ j ,k +1u j ) + di ( i ,k -1 - ik ) + ui ( i ,k +1 - ik ) = 0 i ,2 (ui + ∑ j1d j ) - i1d i - i1 ∑ j ,2 u j = 0 n n j=1 j ≠i j=1 j ≠i i ,n 1 (d i + ∑ jn u j ) - in u i - in ∑ j ,n-1d j = 0 Для случая двух рядовых сайтов достаточное условие выигрыша обоих участников max{ p1 p10 , p2 p20 } p0 > (1 - q0 )q2cat 11 из 10 Некоторые результаты имитационного моделирования: Тестовый пример «Кольцо сайтов» LawDir