ßçûêîâûå ìîäåëè Ëèíãâèñòè÷åñêèå àñïåêòû íîâûõ èíôîðìàöèîííûõ òåõíîëîãèé Ýíãðàììíûå ÿçûêîâûå ìîäåëè. Àëåêñåé Àíäðååâè÷ Ñîðîêèí ÎÒÈÏË ÌÃÓ, îñåííèé ñåìåñòð 20182019 ó÷åáíîãî ãîäà Àëåêñåé Àíäðååâè÷ Ñîðîêèí Ëèíãâèñòè÷åñêèå àñïåêòû íîâûõ èíôîðìàöèîííûõ òåõíîëîãèé ßçûêîâûå ìîäåëè Âåðîÿòíîñòü òåêñòà Ìíîãèå çàäà÷è òðåáóþò ïîðîæäàòü òåêñò (âîçìîæíî, ïðè óñëîâèè íåêîòîðîãî äðóãîãî òåêñòà): ×àòáîòû ïîðîæäåíèå îòâåòà íà ðåïëèêó ïîëüçîâàòåëÿ. Ìàøèííûé ïåðåâîä ïðåäëîæåíèå íà öåëåâîì ÿçûêå. Ðàñïîçíàâàíèå çâó÷àùåé ðå÷è ïðåîáðàçîâàíèå ãðàôåì â ôîíåìû. Àëåêñåé Àíäðååâè÷ Ñîðîêèí Ëèíãâèñòè÷åñêèå àñïåêòû íîâûõ èíôîðìàöèîííûõ òåõíîëîãèé ßçûêîâûå ìîäåëè Âåðîÿòíîñòü òåêñòà Ìíîãèå çàäà÷è òðåáóþò ïîðîæäàòü òåêñò (âîçìîæíî, ïðè óñëîâèè íåêîòîðîãî äðóãîãî òåêñòà): ×àòáîòû ïîðîæäåíèå îòâåòà íà ðåïëèêó ïîëüçîâàòåëÿ. Ìàøèííûé ïåðåâîä ïðåäëîæåíèå íà öåëåâîì ÿçûêå. Ðàñïîçíàâàíèå çâó÷àùåé ðå÷è ïðåîáðàçîâàíèå ãðàôåì â ôîíåìû. Òàêæå íóæíî îöåíèâàòü âåðîÿòíîñòü òåêñòà. Àâòîìàòè÷åñêàÿ êëàññèôèêàöèÿ òåêñò îòíîñèòñÿ ê òîìó êëàññó, äëÿ êîòîðîãî îí áîëåå âåðîÿòåí. Àâòîäîïîëíåíèå ïîäñòàíîâêà íàèáîëåå âåðîÿòíîãî ñëîâà â òåêñò. Àëåêñåé Àíäðååâè÷ Ñîðîêèí Ëèíãâèñòè÷åñêèå àñïåêòû íîâûõ èíôîðìàöèîííûõ òåõíîëîãèé ßçûêîâûå ìîäåëè Âåðîÿòíîñòü òåêñòà: ìàòåìàòè÷åñêàÿ ìîäåëü Ìíîãèå çàäà÷è ñâîäÿòñÿ ê ìàêñèìèçàöèè óñëîâíîé âåðîÿòíîñòè ïîðîæäàåìîãî òåêñòà t ïðè óñëîâèè òåêñòà tb = argmax p(t|s) = argmax s: p(s|t)p(t) = argmax p(s|t)p(t) p(s) Àëåêñåé Àíäðååâè÷ Ñîðîêèí Ëèíãâèñòè÷åñêèå àñïåêòû íîâûõ èíôîðìàöèîííûõ òåõíîëîãèé ßçûêîâûå ìîäåëè Âåðîÿòíîñòü òåêñòà: ìàòåìàòè÷åñêàÿ ìîäåëü Ìíîãèå çàäà÷è ñâîäÿòñÿ ê ìàêñèìèçàöèè óñëîâíîé âåðîÿòíîñòè ïîðîæäàåìîãî òåêñòà t ïðè óñëîâèè òåêñòà tb = argmax p(t|s) = argmax s: p(s|t)p(t) = argmax p(s|t)p(t) p(s) p(s|t) ìåðèò ñòåïåíü ñîîòâåòñòâèÿ ìåæäó s è t . p(t) âåðîÿòíîñòü ïîðîæä¼ííîãî òåêñòà t . Êàê å¼ Àëåêñåé Àíäðååâè÷ Ñîðîêèí Ëèíãâèñòè÷åñêèå àñïåêòû íîâûõ èíôîðìàöèîííûõ òåõíîëîãèé ñ÷èòàòü? ßçûêîâûå ìîäåëè Âåðîÿòíîñòü òåêñòà: ìàòåìàòè÷åñêàÿ ìîäåëü Ìíîãèå çàäà÷è ñâîäÿòñÿ ê ìàêñèìèçàöèè óñëîâíîé âåðîÿòíîñòè ïîðîæäàåìîãî òåêñòà t ïðè óñëîâèè òåêñòà tb = argmax p(t|s) = argmax s: p(s|t)p(t) = argmax p(s|t)p(t) p(s) p(s|t) ìåðèò ñòåïåíü ñîîòâåòñòâèÿ ìåæäó s è t . p(t) âåðîÿòíîñòü ïîðîæä¼ííîãî òåêñòà t . Êàê å¼ ñ÷èòàòü? Ôîðìóëà óñëîâíîé âåðîÿòíîñòè: p(w1 . . . wN ) = p(w1 )p(w2 |w1 )p(w3 |w1 w2 ) . . . p(wN |w1 . . . wN−1 ). Êàê îöåíèòü p(w1000 |p1 . . . p999 )? Àëåêñåé Àíäðååâè÷ Ñîðîêèí Ëèíãâèñòè÷åñêèå àñïåêòû íîâûõ èíôîðìàöèîííûõ òåõíîëîãèé ßçûêîâûå ìîäåëè Áàçîâàÿ ýíãðàììíàÿ ìîäåëü Ïðåäïîëîæåíèå ýíãðàììíîé ìîäåëè: êàæäîå ñëîâî çàâèñèò òîëüêî îò n−1 ïðåäûäóùåãî. p(wN |w1 . . . wN−1 ) = p(wN |wN−n+1 . . . wN−1 ) Àëåêñåé Àíäðååâè÷ Ñîðîêèí Ëèíãâèñòè÷åñêèå àñïåêòû íîâûõ èíôîðìàöèîííûõ òåõíîëîãèé ßçûêîâûå ìîäåëè Áàçîâàÿ ýíãðàììíàÿ ìîäåëü Ïðåäïîëîæåíèå ýíãðàììíîé ìîäåëè: êàæäîå ñëîâî çàâèñèò òîëüêî îò n−1 ïðåäûäóùåãî. p(wN |w1 . . . wN−1 ) = p(wN |wN−n+1 . . . wN−1 ) ×àùå âñåãî áåðóò áèãðàììû, n=3 n 6 3 (n = 1 óíèãðàììû, òðèãðàììû). Êàê ñ÷èòàòü ýíãðàììíûå âåðîÿòíîñòè? Àëåêñåé Àíäðååâè÷ Ñîðîêèí Ëèíãâèñòè÷åñêèå àñïåêòû íîâûõ èíôîðìàöèîííûõ òåõíîëîãèé n = 2 ßçûêîâûå ìîäåëè Áàçîâàÿ ýíãðàììíàÿ ìîäåëü Ïðåäïîëîæåíèå ýíãðàììíîé ìîäåëè: êàæäîå ñëîâî çàâèñèò òîëüêî îò n−1 ïðåäûäóùåãî. p(wN |w1 . . . wN−1 ) = p(wN |wN−n+1 . . . wN−1 ) ×àùå âñåãî áåðóò áèãðàììû, n=3 n 6 3 (n = 1 óíèãðàììû, n = 2 òðèãðàììû). Êàê ñ÷èòàòü ýíãðàììíûå âåðîÿòíîñòè? Íàèâíûé ïîäõîä: p(wn |w1,n−1 ) = w1 . . . wn−1 . = w1 . . . wn . ïðîäîëæåíèé èñòîðèè Çäåñü è äàëåå w1,n c(w1,n ) c(w1,n−1 ) Àëåêñåé Àíäðååâè÷ Ñîðîêèí Ëèíãâèñòè÷åñêèå àñïåêòû íîâûõ èíôîðìàöèîííûõ òåõíîëîãèé äîëÿ wn ñðåäè ßçûêîâûå ìîäåëè Áàçîâàÿ ýíãðàììíàÿ ìîäåëü Ïðåäïîëîæåíèå ýíãðàììíîé ìîäåëè: êàæäîå ñëîâî çàâèñèò òîëüêî îò n−1 ïðåäûäóùåãî. p(wN |w1 . . . wN−1 ) = p(wN |wN−n+1 . . . wN−1 ) ×àùå âñåãî áåðóò áèãðàììû, n=3 n 6 3 (n = 1 óíèãðàììû, n = 2 òðèãðàììû). Êàê ñ÷èòàòü ýíãðàììíûå âåðîÿòíîñòè? Íàèâíûé ïîäõîä: p(wn |w1,n−1 ) = w1 . . . wn−1 . = w1 . . . wn . ïðîäîëæåíèé èñòîðèè Çäåñü è äàëåå w1,n c(w1,n ) c(w1,n−1 ) Íåäîñòàòîê: íóëåâûå âåðîÿòíîñòè. Àëåêñåé Àíäðååâè÷ Ñîðîêèí Ëèíãâèñòè÷åñêèå àñïåêòû íîâûõ èíôîðìàöèîííûõ òåõíîëîãèé äîëÿ wn ñðåäè ßçûêîâûå ìîäåëè Ïðèìåð ÿ ÷èòàë 1864 ÿ ÷èòàë êíèãó 19 ÿ ÷èòàë ãàçåòó 3 ÿ ÷èòàë ëåêöèþ 11 ÿ ÷èòàë äîêëàä 0 ÿ ÷èòàë èíñòðóêöèþ 0 Àëåêñåé Àíäðååâè÷ Ñîðîêèí Ëèíãâèñòè÷åñêèå àñïåêòû íîâûõ èíôîðìàöèîííûõ òåõíîëîãèé 19 1864 3 1864 11 1864 0 1864 0 1864 ≈ 0.010 ≈ 0.002 ≈ 0.006 = 0? = 0? ßçûêîâûå ìîäåëè Àääèòèâíîå ñãëàæèâàíèå Ìîæíî ïðèìåíèòü àääèòèâíîå ñãëàæèâàíèå: p(tn |t1 . . . tn−1 ) = D α>0 ãäå c(t1 . . . tn−1 tn ) + α , c(t1 . . . tn−1 •) + α|D| ñëîâàðü (ìíîæåñòâî âîçìîæíûõ óíèãðàìì), ñãëàæèâàþùåå ñëàãàåìîå Ïðè àääèòèâíîì ñãëàæèâàíèè ñ÷èòàåòñÿ, ÷òî êàæäîå ñëîâî äîïîëíèòåëüíî âñòðå÷àåòñÿ α ðàç. Àëåêñåé Àíäðååâè÷ Ñîðîêèí Ëèíãâèñòè÷åñêèå àñïåêòû íîâûõ èíôîðìàöèîííûõ òåõíîëîãèé ßçûêîâûå ìîäåëè Àääèòèâíîå ñãëàæèâàíèå Ìîæíî ïðèìåíèòü àääèòèâíîå ñãëàæèâàíèå: p(tn |t1 . . . tn−1 ) = D α>0 ãäå c(t1 . . . tn−1 tn ) + α , c(t1 . . . tn−1 •) + α|D| ñëîâàðü (ìíîæåñòâî âîçìîæíûõ óíèãðàìì), ñãëàæèâàþùåå ñëàãàåìîå Ïðè àääèòèâíîì ñãëàæèâàíèè ñ÷èòàåòñÿ, ÷òî êàæäîå ñëîâî äîïîëíèòåëüíî âñòðå÷àåòñÿ α ðàç. Òåïåðü óæå íåò íóëåâûõ âåðîÿòíîñòåé. Íî êàê âûáèðàòü α? Ìàëåíüêàÿ α ðèñê ïåðåïîäãîíêè ïîä îáó÷àþùóþ âûáîðêó. Áîëüøàÿ α íå ó÷èòûâàåì íàáëþäàåìûå âåðîÿòíîñòè. çíà÷åíèå Àëåêñåé Àíäðååâè÷ Ñîðîêèí Ëèíãâèñòè÷åñêèå àñïåêòû íîâûõ èíôîðìàöèîííûõ òåõíîëîãèé ßçûêîâûå ìîäåëè Èíòåðïîëÿöèÿ è îòêàò Íåäîñòàòêè àääèòèâíîãî ñãëàæèâàíèÿ: íåïîíÿòíî, êàê ïîäáèðàòü α (çàâèñèò îò ðàçìåðà êîðïóñà, ðàçìåðà ñëîâàðÿ, ïîðÿäêà ýíãðàìì è ò. ä.) Àëåêñåé Àíäðååâè÷ Ñîðîêèí Ëèíãâèñòè÷åñêèå àñïåêòû íîâûõ èíôîðìàöèîííûõ òåõíîëîãèé ßçûêîâûå ìîäåëè Èíòåðïîëÿöèÿ è îòêàò Íåäîñòàòêè àääèòèâíîãî ñãëàæèâàíèÿ: íåïîíÿòíî, êàê ïîäáèðàòü α (çàâèñèò îò ðàçìåðà êîðïóñà, ðàçìåðà ñëîâàðÿ, ïîðÿäêà ýíãðàìì è ò. ä.) ìåòîä íåãèáêèé, íå ó÷èòûâàåò èñòîðèþ t1 . . . tn−1 (åñëè èñòîðèÿ âñòðå÷àëàñü ÷àñòî, òî ñãëàæèâàíèå äîëæíî áûòü áîëåå ñëàáûì). Àëåêñåé Àíäðååâè÷ Ñîðîêèí Ëèíãâèñòè÷åñêèå àñïåêòû íîâûõ èíôîðìàöèîííûõ òåõíîëîãèé ßçûêîâûå ìîäåëè Èíòåðïîëÿöèÿ è îòêàò Íåäîñòàòêè àääèòèâíîãî ñãëàæèâàíèÿ: íåïîíÿòíî, êàê ïîäáèðàòü α (çàâèñèò îò ðàçìåðà êîðïóñà, ðàçìåðà ñëîâàðÿ, ïîðÿäêà ýíãðàìì è ò. ä.) ìåòîä íåãèáêèé, íå ó÷èòûâàåò èñòîðèþ t1 . . . tn−1 (åñëè èñòîðèÿ âñòðå÷àëàñü ÷àñòî, òî ñãëàæèâàíèå äîëæíî áûòü áîëåå ñëàáûì). p(tn |t2 . . . tn−1 ) äëÿ âûc(tn |t1 . . . tn−1 ) = 0. Îñíîâíàÿ èäåÿ: áóäåì èñïîëüçîâàòü ÷èñëåíèÿ p(tn |t1 . . . tn−1 ), åñëè Åñëè ñëîâî íå âñòðå÷àëîñü ïîñëå òåêóùåé èñòîðèè, ïåðåéä¼ì ê áîëåå êîðîòêîé. Àëåêñåé Àíäðååâè÷ Ñîðîêèí Ëèíãâèñòè÷åñêèå àñïåêòû íîâûõ èíôîðìàöèîííûõ òåõíîëîãèé ßçûêîâûå ìîäåëè Èíòåðïîëÿöèÿ è îòêàò Íåäîñòàòêè àääèòèâíîãî ñãëàæèâàíèÿ: íåïîíÿòíî, êàê ïîäáèðàòü α (çàâèñèò îò ðàçìåðà êîðïóñà, ðàçìåðà ñëîâàðÿ, ïîðÿäêà ýíãðàìì è ò. ä.) ìåòîä íåãèáêèé, íå ó÷èòûâàåò èñòîðèþ t1 . . . tn−1 (åñëè èñòîðèÿ âñòðå÷àëàñü ÷àñòî, òî ñãëàæèâàíèå äîëæíî áûòü áîëåå ñëàáûì). p(tn |t2 . . . tn−1 ) äëÿ âûc(tn |t1 . . . tn−1 ) = 0. Îñíîâíàÿ èäåÿ: áóäåì èñïîëüçîâàòü ÷èñëåíèÿ p(tn |t1 . . . tn−1 ), åñëè Åñëè ñëîâî íå âñòðå÷àëîñü ïîñëå òåêóùåé èñòîðèè, ïåðåéä¼ì ê áîëåå êîðîòêîé. Îáùàÿ èíòåðïîëÿöèîííàÿ ôîðìóëà: pI (tn |t1 . . . tn−1 ) = λpC (tn |t1,n−1 ) + (1 − λ)pI (tn |t2,n−1 ) Àëåêñåé Àíäðååâè÷ Ñîðîêèí Ëèíãâèñòè÷åñêèå àñïåêòû íîâûõ èíôîðìàöèîííûõ òåõíîëîãèé ßçûêîâûå ìîäåëè Èíòåðïîëÿöèÿ è îòêàò Íåäîñòàòêè àääèòèâíîãî ñãëàæèâàíèÿ: íåïîíÿòíî, êàê ïîäáèðàòü α (çàâèñèò îò ðàçìåðà êîðïóñà, ðàçìåðà ñëîâàðÿ, ïîðÿäêà ýíãðàìì è ò. ä.) ìåòîä íåãèáêèé, íå ó÷èòûâàåò èñòîðèþ t1 . . . tn−1 (åñëè èñòîðèÿ âñòðå÷àëàñü ÷àñòî, òî ñãëàæèâàíèå äîëæíî áûòü áîëåå ñëàáûì). p(tn |t2 . . . tn−1 ) äëÿ âûc(tn |t1 . . . tn−1 ) = 0. Îñíîâíàÿ èäåÿ: áóäåì èñïîëüçîâàòü ÷èñëåíèÿ p(tn |t1 . . . tn−1 ), åñëè Åñëè ñëîâî íå âñòðå÷àëîñü ïîñëå òåêóùåé èñòîðèè, ïåðåéä¼ì ê áîëåå êîðîòêîé. Îáùàÿ èíòåðïîëÿöèîííàÿ ôîðìóëà: pI (tn |t1 . . . tn−1 ) = λpC (tn |t1,n−1 ) + (1 − λ)pI (tn |t2,n−1 ) pC (tn |t1 . . . tn−1 ) = λ c(t1 . . . tn−1 tn ) c(t1 . . . tn−1 •) êîðïóñíàÿ âåðîÿòíîñòü, êîýôôèöèåíò, âîîáùå ãîâîðÿ, çàâèñÿùèé îò Àëåêñåé Àíäðååâè÷ Ñîðîêèí Ëèíãâèñòè÷åñêèå àñïåêòû íîâûõ èíôîðìàöèîííûõ òåõíîëîãèé t1 . . . tn−1 . ßçûêîâûå ìîäåëè Ïðèìåð w1 w2 w3 ÿ ÷èòàë c(w1 w2 w3 ) p(w3 |w1 w2 ) w2 1832 w3 ÷èòàë c(w2 w3 ) p(w3 |w2 ) 18149 ÿ ÷èòàë ãàçåòó 3 0.0016 ÷èòàë ãàçåòó 149 0.0082 ÿ ÷èòàë êíèãó 19 0.0103 ÷èòàë êíèãó 138 0.0076 ÿ ÷èòàë ëåêöèþ 11 0.0060 ÷èòàë ëåêöèþ 81 0.0045 ÿ ÷èòàë äîêëàä 0 0 ÷èòàë äîêëàä 22 0.0012 Àëåêñåé Àíäðååâè÷ Ñîðîêèí Ëèíãâèñòè÷åñêèå àñïåêòû íîâûõ èíôîðìàöèîííûõ òåõíîëîãèé ßçûêîâûå ìîäåëè Ïðèìåð w1 w2 c(w1 w2 w3 ) p(w3 |w1 w2 ) w2 w3 ÿ ÷èòàë 1832 w3 ÷èòàë c(w2 w3 ) p(w3 |w2 ) 18149 ÿ ÷èòàë ãàçåòó 3 0.0016 ÷èòàë ãàçåòó 149 0.0082 ÿ ÷èòàë êíèãó 19 0.0103 ÷èòàë êíèãó 138 0.0076 ÿ ÷èòàë ëåêöèþ 11 0.0060 ÷èòàë ëåêöèþ 81 0.0045 ÿ ÷èòàë äîêëàä 0 0 ÷èòàë äîêëàä 22 0.0012 Ïðè λ = 0.5 ïîëó÷àåì p(ãàçåòó|ÿ ÷èòàë) = 0.5 ∗ 0.0016 + 0.5 ∗ 0.0082 = 0.0049 p(äîêëàä|ÿ ÷èòàë) = 0.5 ∗ 0.0000 + 0.5 ∗ 0.0012 = 0.0006 Àëåêñåé Àíäðååâè÷ Ñîðîêèí Ëèíãâèñòè÷åñêèå àñïåêòû íîâûõ èíôîðìàöèîííûõ òåõíîëîãèé ßçûêîâûå ìîäåëè Èíòåðïîëÿöèÿ è îòêàò Îáîçíà÷èì ti,j = ti . . . tj . Îáùàÿ èíòåðïîëÿöèîííàÿ ôîðìóëà: pI (tn |t1,n−1 ) = λpC (tn |t1,n−1 ) + (1 − λ)pI (tn |t2,n−1 ) Àëåêñåé Àíäðååâè÷ Ñîðîêèí Ëèíãâèñòè÷åñêèå àñïåêòû íîâûõ èíôîðìàöèîííûõ òåõíîëîãèé ßçûêîâûå ìîäåëè Èíòåðïîëÿöèÿ è îòêàò Îáîçíà÷èì ti,j = ti . . . tj . Îáùàÿ èíòåðïîëÿöèîííàÿ ôîðìóëà: pI (tn |t1,n−1 ) = λpC (tn |t1,n−1 ) + (1 − λ)pI (tn |t2,n−1 ) Ôîðìóëà îòêàòà (backo ): ( α(t1,n−1 )pC (tn |t1,n−1 ), c(t1,n−1 tn ) > 0, pI (tn |t1 . . . tn−1 ) = β(t1,n−1 )pI (tn |t2,n−1 ), c(t1,n−1 tn ) = 0 Àëåêñåé Àíäðååâè÷ Ñîðîêèí Ëèíãâèñòè÷åñêèå àñïåêòû íîâûõ èíôîðìàöèîííûõ òåõíîëîãèé ßçûêîâûå ìîäåëè Èíòåðïîëÿöèÿ è îòêàò Îáîçíà÷èì ti,j = ti . . . tj . Îáùàÿ èíòåðïîëÿöèîííàÿ ôîðìóëà: pI (tn |t1,n−1 ) = λpC (tn |t1,n−1 ) + (1 − λ)pI (tn |t2,n−1 ) Ôîðìóëà îòêàòà (backo ): ( α(t1,n−1 )pC (tn |t1,n−1 ), c(t1,n−1 tn ) > 0, pI (tn |t1 . . . tn−1 ) = β(t1,n−1 )pI (tn |t2,n−1 ), c(t1,n−1 tn ) = 0 ×åì áîëüøå λ (α â ôîðìóëå îòêàòà), òåì áîëüøå ìû äîâåðÿ- åì èñòîðèè t1,n−1 . Àëåêñåé Àíäðååâè÷ Ñîðîêèí Ëèíãâèñòè÷åñêèå àñïåêòû íîâûõ èíôîðìàöèîííûõ òåõíîëîãèé ßçûêîâûå ìîäåëè Èíòåðïîëÿöèÿ è îòêàò Îáîçíà÷èì ti,j = ti . . . tj . Îáùàÿ èíòåðïîëÿöèîííàÿ ôîðìóëà: pI (tn |t1,n−1 ) = λpC (tn |t1,n−1 ) + (1 − λ)pI (tn |t2,n−1 ) Ôîðìóëà îòêàòà (backo ): ( α(t1,n−1 )pC (tn |t1,n−1 ), c(t1,n−1 tn ) > 0, pI (tn |t1 . . . tn−1 ) = β(t1,n−1 )pI (tn |t2,n−1 ), c(t1,n−1 tn ) = 0 ×åì áîëüøå λ (α â ôîðìóëå îòêàòà), òåì áîëüøå ìû äîâåðÿ- åì èñòîðèè t1,n−1 . Ìíîãî ñëó÷àéíûõ ïðîäîëæåíèé ó t1,n−1 Ïðîäîëæåíèé ìàëî è îíè ÷àñòîòíûå Àëåêñåé Àíäðååâè÷ Ñîðîêèí Ëèíãâèñòè÷åñêèå àñïåêòû íîâûõ èíôîðìàöèîííûõ òåõíîëîãèé λ ìàëî. λ≈1 ßçûêîâûå ìîäåëè Èíòåðïîëÿöèÿ è îòêàò Îáîçíà÷èì ti,j = ti . . . tj . Îáùàÿ èíòåðïîëÿöèîííàÿ ôîðìóëà: pI (tn |t1,n−1 ) = λpC (tn |t1,n−1 ) + (1 − λ)pI (tn |t2,n−1 ) Ôîðìóëà îòêàòà (backo ): ( α(t1,n−1 )pC (tn |t1,n−1 ), c(t1,n−1 tn ) > 0, pI (tn |t1 . . . tn−1 ) = β(t1,n−1 )pI (tn |t2,n−1 ), c(t1,n−1 tn ) = 0 ×åì áîëüøå λ (α â ôîðìóëå îòêàòà), òåì áîëüøå ìû äîâåðÿ- åì èñòîðèè t1,n−1 . Ìíîãî ñëó÷àéíûõ ïðîäîëæåíèé ó t1,n−1 Ïðîäîëæåíèé ìàëî è îíè ÷àñòîòíûå β λ ìàëî. λ≈1 ïîäáèðàþò, ÷òîáû ñóììà âåðîÿòíîñòåé ïîëó÷èëàñü 1. Àëåêñåé Àíäðååâè÷ Ñîðîêèí Ëèíãâèñòè÷åñêèå àñïåêòû íîâûõ èíôîðìàöèîííûõ òåõíîëîãèé ßçûêîâûå ìîäåëè Ìåòîä Óèòòåíà-Áåëëà Ìåòîä Óèòòåíà-Áåëëà: pI (tn |t1,n−1 ) = λ = N1+ (t1 . . . tn−1 ) N1+ (t1 . . . tn−1 ) = λpc (tn |t1,n−1 ) + (1 − λ)pI (tn |t2,n−1 ) c(t1 . . . tn−1 ) c(t1 . . . tn−1 ) + N1+ (t1 . . . tn−1 ) |{t|c(t1 . . . tn−1 t) > 0} ÷èñëî ïðîäîëæåíèé Àëåêñåé Àíäðååâè÷ Ñîðîêèí Ëèíãâèñòè÷åñêèå àñïåêòû íîâûõ èíôîðìàöèîííûõ òåõíîëîãèé ßçûêîâûå ìîäåëè Ìåòîä Óèòòåíà-Áåëëà Ìåòîä Óèòòåíà-Áåëëà: pI (tn |t1,n−1 ) = λ = N1+ (t1 . . . tn−1 ) N1+ (t1 . . . tn−1 ) = λpc (tn |t1,n−1 ) + (1 − λ)pI (tn |t2,n−1 ) c(t1 . . . tn−1 ) c(t1 . . . tn−1 ) + N1+ (t1 . . . tn−1 ) |{t|c(t1 . . . tn−1 t) > 0} ÷èñëî ïðîäîëæåíèé Ïðèìåð (áðèòàíñêèé íàöèîíàëüíûé êîðïóñ): w1 c(w1 ) N1+ (w1 ) N3+ (w1 ) λ(w1 ) spite 2899 59 15 stupid 2898 602 117 2899 2899 + 59 1 = 0.980 2898 2898 Àëåêñåé Àíäðååâè÷ Ñîðîêèí Ëèíãâèñòè÷åñêèå àñïåêòû íîâûõ èíôîðìàöèîííûõ òåõíîëîãèé + 602 = 0.828 − λ(w1 ) 0.02 0.172 ßçûêîâûå ìîäåëè Ìåòîä Óèòòåíà-Áåëëà Ìåòîä Óèòòåíà-Áåëëà: pI (tn |t1,n−1 ) = λ = N1+ (t1 . . . tn−1 ) N1+ (t1 . . . tn−1 ) = λpc (tn |t1,n−1 ) + (1 − λ)pI (tn |t2,n−1 ) c(t1 . . . tn−1 ) c(t1 . . . tn−1 ) + N1+ (t1 . . . tn−1 ) |{t|c(t1 . . . tn−1 t) > 0} ÷èñëî ïðîäîëæåíèé Ïðèìåð (áðèòàíñêèé íàöèîíàëüíûé êîðïóñ): w1 c(w1 ) N1+ (w1 ) N3+ (w1 ) λ(w1 ) spite 2899 59 15 stupid 2898 602 117 Óíèãðàììíàÿ ìîäåëü äëÿ spite. stupid 2899 2899 + 59 1 = 0.980 2898 2898 + 602 = 0.828 − λ(w1 ) 0.02 0.172 â 8 ðàç áîëåå çíà÷èìà, ÷åì äëÿ Àëåêñåé Àíäðååâè÷ Ñîðîêèí Ëèíãâèñòè÷åñêèå àñïåêòû íîâûõ èíôîðìàöèîííûõ òåõíîëîãèé ßçûêîâûå ìîäåëè Ìåòîä Êíåçåðà-Íåÿ Ìåòîä Óèòòåíà-Áåëëà ó÷èòûâàåò êîëè÷åñòâî âîçìîæíûõ ïðàâûõ ïðîäîëæåíèé. Ìîæíî ó÷èòûâàòü è ëåâûå: Àëåêñåé Àíäðååâè÷ Ñîðîêèí Ëèíãâèñòè÷åñêèå àñïåêòû íîâûõ èíôîðìàöèîííûõ òåõíîëîãèé ßçûêîâûå ìîäåëè Ìåòîä Êíåçåðà-Íåÿ Ìåòîä Óèòòåíà-Áåëëà ó÷èòûâàåò êîëè÷åñòâî âîçìîæíûõ ïðàâûõ ïðîäîëæåíèé. Ìîæíî ó÷èòûâàòü è ëåâûå: ïðåäøåñòâåííèêîì ñëîâà York New . Àëåêñåé Àíäðååâè÷ Ñîðîêèí Ëèíãâèñòè÷åñêèå àñïåêòû íîâûõ èíôîðìàöèîííûõ òåõíîëîãèé ïðàêòè÷åñêè âñåãäà áóäåò ñëîâî ßçûêîâûå ìîäåëè Ìåòîä Êíåçåðà-Íåÿ Ìåòîä Óèòòåíà-Áåëëà ó÷èòûâàåò êîëè÷åñòâî âîçìîæíûõ ïðàâûõ ïðîäîëæåíèé. Ìîæíî ó÷èòûâàòü è ëåâûå: ïðåäøåñòâåííèêîì ñëîâà York ïðàêòè÷åñêè âñåãäà áóäåò ñëîâî New . ñîîòâåòñòâåííî, p(York|w ) ≈ 0 ïðè w 6= new (òî åñòü íå äîëæåí ïîÿâëÿòüñÿ ïîñëå äðóãèõ ñëîâ, êðîìå ïðè ýòîì pUNI (York) = c(York) N Àëåêñåé Àíäðååâè÷ Ñîðîêèí Ëèíãâèñòè÷åñêèå àñïåêòû íîâûõ èíôîðìàöèîííûõ òåõíîëîãèé new ) äîñòàòî÷íî âåëèêà. York ßçûêîâûå ìîäåëè Ìåòîä Êíåçåðà-Íåÿ Ìåòîä Óèòòåíà-Áåëëà ó÷èòûâàåò êîëè÷åñòâî âîçìîæíûõ ïðàâûõ ïðîäîëæåíèé. Ìîæíî ó÷èòûâàòü è ëåâûå: ïðåäøåñòâåííèêîì ñëîâà York ïðàêòè÷åñêè âñåãäà áóäåò ñëîâî New . ñîîòâåòñòâåííî, p(York|w ) ≈ 0 ïðè w 6= new (òî åñòü íå äîëæåí ïîÿâëÿòüñÿ ïîñëå äðóãèõ ñëîâ, êðîìå ïðè ýòîì pUNI (York) = c(York) N new ) York äîñòàòî÷íî âåëèêà.  ìåòîäå Êíåçåðà-Íåÿ óíèãðàììíàÿ âåðîÿòíîñòü ñ÷èòàåòñÿ ïî ôîðìóëå pKN (w ) = N (•w ) P 1+ N1+ (•w 0 ) w0 N1+ (•w ) = |{w1 |c(w1 w ) > 0}| ÷èñëî ëåâûõ ïðîäîëæåíèé Ñëîâî òåì âåðîÿòíåå, ÷åì ïîñëå áîëüøåãî ÷èñëà ñëîâ îíî ìîæåò âñòðå÷àòüñÿ. Àëåêñåé Àíäðååâè÷ Ñîðîêèí Ëèíãâèñòè÷åñêèå àñïåêòû íîâûõ èíôîðìàöèîííûõ òåõíîëîãèé ßçûêîâûå ìîäåëè Ìåòîä Êíåçåðà-Íåÿ Äëÿ ïåðåðàñïðåäåëåíèÿ âåðîÿòíîñòåé íà íîâûå ñëîâà èñïîëüçóåòñÿ äèñêîíòèðîâàíèå (èç âñåõ ñ÷¼ò÷èêîâ âû÷èòàåòñÿ p0 (tn |t1,n−1 ) = c(t1,n−1 tn ) − δ , c(t1,n−1 tn ) > 0 c(t1,n−1 •) Àëåêñåé Àíäðååâè÷ Ñîðîêèí Ëèíãâèñòè÷åñêèå àñïåêòû íîâûõ èíôîðìàöèîííûõ òåõíîëîãèé δ ). ßçûêîâûå ìîäåëè Ìåòîä Êíåçåðà-Íåÿ Äëÿ ïåðåðàñïðåäåëåíèÿ âåðîÿòíîñòåé íà íîâûå ñëîâà èñïîëüçóåòñÿ äèñêîíòèðîâàíèå (èç âñåõ ñ÷¼ò÷èêîâ âû÷èòàåòñÿ p0 (tn |t1,n−1 ) = δ ). c(t1,n−1 tn ) − δ , c(t1,n−1 tn ) > 0 c(t1,n−1 •)  èíòåðïîëÿöèîííîé ôîðìóëå pKN (tn |t1,n−1 ) = p0 (tn |t1,n−1 ) + β(t1,n−1 )pKN (tn |t2,n−1 ) ïîëó÷àåì β= δN1+ (t1,n−1 ) c(t1,n−1 •) (âûâåäèòå ýòó ôîðìóëó). Äëÿ óíèãðàììíûõ âåðîÿòíîñòåé ôîðìóëà ñ ïðåäûäóùåãî ñëàéäà. Àëåêñåé Àíäðååâè÷ Ñîðîêèí Ëèíãâèñòè÷åñêèå àñïåêòû íîâûõ èíôîðìàöèîííûõ òåõíîëîãèé ßçûêîâûå ìîäåëè Ìåòîä Êíåçåðà-Íåÿ  èíòåðïîëÿöèîííîé ôîðìóëå pKN (tn |t1,n−1 ) = p0 (tn |t1,n−1 ) + β(t1,n−1 )pKN (tn |t1,n−2 ) Àëåêñåé Àíäðååâè÷ Ñîðîêèí Ëèíãâèñòè÷åñêèå àñïåêòû íîâûõ èíôîðìàöèîííûõ òåõíîëîãèé ßçûêîâûå ìîäåëè Ìåòîä Êíåçåðà-Íåÿ  èíòåðïîëÿöèîííîé ôîðìóëå pKN (tn |t1,n−1 ) = p0 (tn |t1,n−1 ) + β(t1,n−1 )pKN (tn |t1,n−2 ) Îñíîâíàÿ ïðîáëåìà: ïîèñê îïòèìàëüíîé δ.  ñòàíäàðòíîé ðåàëèçàöèè N2 N1 N4 = 1 − 4Y N3 δ1 = δ>3 1 − 2Y Àëåêñåé Àíäðååâè÷ Ñîðîêèí Ëèíãâèñòè÷åñêèå àñïåêòû íîâûõ èíôîðìàöèîííûõ òåõíîëîãèé − 3Y N3 N2 δ2 = 1 Y N1 N 1 + 2 N2 = ßçûêîâûå ìîäåëè Ìåòîä Êíåçåðà-Íåÿ  èíòåðïîëÿöèîííîé ôîðìóëå pKN (tn |t1,n−1 ) = p0 (tn |t1,n−1 ) + β(t1,n−1 )pKN (tn |t1,n−2 ) Îñíîâíàÿ ïðîáëåìà: ïîèñê îïòèìàëüíîé δ.  ñòàíäàðòíîé ðåàëèçàöèè N2 N1 N4 = 1 − 4Y N3 δ1 = δ>3 Çäåñü δi 1 − 2Y δ2 = Y äèñêîíò äëÿ ñ÷¼ò÷èêîâ, ýíãðàìì ÷àñòîòû i. Àëåêñåé Àíäðååâè÷ Ñîðîêèí Ëèíãâèñòè÷åñêèå àñïåêòû íîâûõ èíôîðìàöèîííûõ òåõíîëîãèé 1 − 3Y N3 N2 N1 N 1 + 2 N2 ðàâíûõ i , Ni = ÷èñëî ßçûêîâûå ìîäåëè Ìåòîä Êíåçåðà-Íåÿ  èíòåðïîëÿöèîííîé ôîðìóëå pKN (tn |t1,n−1 ) = p0 (tn |t1,n−1 ) + β(t1,n−1 )pKN (tn |t1,n−2 ) Îñíîâíàÿ ïðîáëåìà: ïîèñê îïòèìàëüíîé δ.  ñòàíäàðòíîé ðåàëèçàöèè N2 N1 N4 = 1 − 4Y N3 δ1 = δ>3 Çäåñü δi 1 − 2Y δ2 = Y äèñêîíò äëÿ ñ÷¼ò÷èêîâ, ýíãðàìì ÷àñòîòû 1 − 3Y N3 N2 N1 N 1 + 2 N2 ðàâíûõ i , Ni = ÷èñëî i.  ñëó÷àå ëåêñè÷åñêèõ ýíãðàìì ìåòîä Êíåçåðà-Íåÿ íàèáîëåå ìîùíûé. Àëåêñåé Àíäðååâè÷ Ñîðîêèí Ëèíãâèñòè÷åñêèå àñïåêòû íîâûõ èíôîðìàöèîííûõ òåõíîëîãèé ßçûêîâûå ìîäåëè Ìåòîä Êíåçåðà-Íåÿ  èíòåðïîëÿöèîííîé ôîðìóëå pKN (tn |t1,n−1 ) = p0 (tn |t1,n−1 ) + β(t1,n−1 )pKN (tn |t1,n−2 ) Îñíîâíàÿ ïðîáëåìà: ïîèñê îïòèìàëüíîé δ.  ñòàíäàðòíîé ðåàëèçàöèè N2 N1 N4 = 1 − 4Y N3 δ1 = δ>3 Çäåñü δi 1 − 2Y δ2 = Y äèñêîíò äëÿ ñ÷¼ò÷èêîâ, ýíãðàìì ÷àñòîòû 1 − 3Y N3 N2 N1 N 1 + 2 N2 ðàâíûõ i , Ni = ÷èñëî i.  ñëó÷àå ëåêñè÷åñêèõ ýíãðàìì ìåòîä Êíåçåðà-Íåÿ íàèáîëåå ìîùíûé. Íåäîñòàòîê: ðàáîòàåò òîëüêî â ñëó÷àå N1 > N2 > N 3 . . . , ïîýòîìó ïëîõî ïðèìåíèì ê ñèìâîëüíûì è ìîðôîëîãè÷åñêèì ýíãðàììàì. Àëåêñåé Àíäðååâè÷ Ñîðîêèí Ëèíãâèñòè÷åñêèå àñïåêòû íîâûõ èíôîðìàöèîííûõ òåõíîëîãèé ßçûêîâûå ìîäåëè Èíòåðïîëÿöèÿ ÷åðåç óäàëåíèå  ìîðôîëîãè÷åñêîì àíàëèçàòîðå TnT èñïîëüçóåòñÿ òðèãðàìì- íàÿ ìîäåëü äëÿ ìîðôîëîãè÷åñêèõ ìåòîê, îñíîâàííàÿ íà èíòåðïîëÿöèè ÷åðåç óäàëåíèå: p(t3 |t1 t2 ) = µ3 pC (t3 |t1 t2 ) + µ2 pC (t3 |t2 ) + µ1 p(t3 ) Àëåêñåé Àíäðååâè÷ Ñîðîêèí Ëèíãâèñòè÷åñêèå àñïåêòû íîâûõ èíôîðìàöèîííûõ òåõíîëîãèé ßçûêîâûå ìîäåëè Èíòåðïîëÿöèÿ ÷åðåç óäàëåíèå  ìîðôîëîãè÷åñêîì àíàëèçàòîðå TnT èñïîëüçóåòñÿ òðèãðàìì- íàÿ ìîäåëü äëÿ ìîðôîëîãè÷åñêèõ ìåòîê, îñíîâàííàÿ íà èíòåðïîëÿöèè ÷åðåç óäàëåíèå: p(t3 |t1 t2 ) = µ3 pC (t3 |t1 t2 ) + µ2 pC (t3 |t2 ) + µ1 p(t3 ) Ìåòîä âû÷èñëåíèÿ µ1 , µ2 , µ3 : Äëÿ êàæäîé òðèãðàììû t1 t2 t3 â êîðïóñå âû÷èñëèòü âåëè÷èíû c(t1 t2 t3 ) − 1 c(t2 t3 ) − 1 c(t3 ) − 1 f3 = , f2 = , f1 = . c(t1 t2 •) c(t2 •) Àëåêñåé Àíäðååâè÷ Ñîðîêèí Ëèíãâèñòè÷åñêèå àñïåêòû íîâûõ èíôîðìàöèîííûõ òåõíîëîãèé c(•) ßçûêîâûå ìîäåëè Èíòåðïîëÿöèÿ ÷åðåç óäàëåíèå  ìîðôîëîãè÷åñêîì àíàëèçàòîðå TnT èñïîëüçóåòñÿ òðèãðàìì- íàÿ ìîäåëü äëÿ ìîðôîëîãè÷åñêèõ ìåòîê, îñíîâàííàÿ íà èíòåðïîëÿöèè ÷åðåç óäàëåíèå: p(t3 |t1 t2 ) = µ3 pC (t3 |t1 t2 ) + µ2 pC (t3 |t2 ) + µ1 p(t3 ) Ìåòîä âû÷èñëåíèÿ µ1 , µ2 , µ3 : Äëÿ êàæäîé òðèãðàììû t1 t2 t3 â êîðïóñå âû÷èñëèòü âåëè÷èíû c(t1 t2 t3 ) − 1 c(t2 t3 ) − 1 c(t3 ) − 1 f3 = , f2 = , f1 = . c(t1 t2 •) c(t2 •) µk , ãäå k = argmaxj fj . Óâåëè÷èòü Àëåêñåé Àíäðååâè÷ Ñîðîêèí Ëèíãâèñòè÷åñêèå àñïåêòû íîâûõ èíôîðìàöèîííûõ òåõíîëîãèé c(•) ßçûêîâûå ìîäåëè Èíòåðïîëÿöèÿ ÷åðåç óäàëåíèå  ìîðôîëîãè÷åñêîì àíàëèçàòîðå TnT èñïîëüçóåòñÿ òðèãðàìì- íàÿ ìîäåëü äëÿ ìîðôîëîãè÷åñêèõ ìåòîê, îñíîâàííàÿ íà èíòåðïîëÿöèè ÷åðåç óäàëåíèå: p(t3 |t1 t2 ) = µ3 pC (t3 |t1 t2 ) + µ2 pC (t3 |t2 ) + µ1 p(t3 ) Ìåòîä âû÷èñëåíèÿ µ1 , µ2 , µ3 : Äëÿ êàæäîé òðèãðàììû t1 t2 t3 â êîðïóñå âû÷èñëèòü âåëè÷èíû c(t1 t2 t3 ) − 1 c(t2 t3 ) − 1 c(t3 ) − 1 f3 = , f2 = , f1 = . c(t1 t2 •) c(t2 •) µk , ãäå k = argmaxj fj . c(•) Óâåëè÷èòü Åñëè íå âû÷èòàòü 1, ìåòîä ïåðåîáó÷àåòñÿ (ñëèøêîì áîëüøîé âåñ ó òðèãðàìì). Ýòîò ìåòîä íå ïîçâîëÿåò ó÷èòûâàòü ìåòêè, íå âñòðå÷àâøèåñÿ â êîðïóñå, ìîæíî äîáàâèòü ê p(t3 |t1 t2 ) Àëåêñåé Àíäðååâè÷ Ñîðîêèí Ëèíãâèñòè÷åñêèå àñïåêòû íîâûõ èíôîðìàöèîííûõ òåõíîëîãèé ñëàãàåìîå 1 . µ0 |D| ßçûêîâûå ìîäåëè Èíòåðïîëÿöèÿ ÷åðåç óäàëåíèå  ìîðôîëîãè÷åñêîì àíàëèçàòîðå TnT èñïîëüçóåòñÿ òðèãðàìì- íàÿ ìîäåëü äëÿ ìîðôîëîãè÷åñêèõ ìåòîê, îñíîâàííàÿ íà èíòåðïîëÿöèè ÷åðåç óäàëåíèå: p(t3 |t1 t2 ) = µ3 pC (t3 |t1 t2 ) + µ2 pC (t3 |t2 ) + µ1 p(t3 ) Ìåòîä âû÷èñëåíèÿ µ1 , µ2 , µ3 : Äëÿ êàæäîé òðèãðàììû t1 t2 t3 â êîðïóñå âû÷èñëèòü âåëè÷èíû c(t1 t2 t3 ) − 1 c(t2 t3 ) − 1 c(t3 ) − 1 f3 = , f2 = , f1 = . c(t1 t2 •) c(t2 •) µk , ãäå k = argmaxj fj . c(•) Óâåëè÷èòü Åñëè íå âû÷èòàòü 1, ìåòîä ïåðåîáó÷àåòñÿ (ñëèøêîì áîëüøîé âåñ ó òðèãðàìì). Ýòîò ìåòîä íå ïîçâîëÿåò ó÷èòûâàòü ìåòêè, íå âñòðå÷àâøèåñÿ p(t3 |t1 t2 ) max fj = 0. â êîðïóñå, ìîæíî äîáàâèòü ê µ0 óâåëè÷èâàåì, åñëè j Àëåêñåé Àíäðååâè÷ Ñîðîêèí Ëèíãâèñòè÷åñêèå àñïåêòû íîâûõ èíôîðìàöèîííûõ òåõíîëîãèé ñëàãàåìîå 1 . µ0 |D| ßçûêîâûå ìîäåëè Îöåíêà êà÷åñòâà ÿçûêîâûõ ìîäåëåé Âåðîÿòíîñòíàÿ ìîäåëü òåì ëó÷øå, ÷åì âåðîÿòíåé îêàçûâàþòñÿ ðåàëüíûå òåêñòû òîãî æå ïðîèñõîæäåíèÿ. Âàæíî: ïåðïëåêñèþ îáÿçàòåëüíî ìåðÿò íå íà òîì òåêñòå, íà êîòîðîì îíà ïîëó÷åíà. Äëÿ ñðàâíåíèÿ ïåðïëåêñèè íà ðàçíûõ òåêñòàõ âåðîÿòíîñòü íîðìèðóþò íà îäíî ñëîâî: 1 PPM (W ) = p(w1 . . . wN )− N Àëåêñåé Àíäðååâè÷ Ñîðîêèí Ëèíãâèñòè÷åñêèå àñïåêòû íîâûõ èíôîðìàöèîííûõ òåõíîëîãèé ßçûêîâûå ìîäåëè Îöåíêà êà÷åñòâà ÿçûêîâûõ ìîäåëåé Âåðîÿòíîñòíàÿ ìîäåëü òåì ëó÷øå, ÷åì âåðîÿòíåé îêàçûâàþòñÿ ðåàëüíûå òåêñòû òîãî æå ïðîèñõîæäåíèÿ. Âàæíî: ïåðïëåêñèþ îáÿçàòåëüíî ìåðÿò íå íà òîì òåêñòå, íà êîòîðîì îíà ïîëó÷åíà. Äëÿ ñðàâíåíèÿ ïåðïëåêñèè íà ðàçíûõ òåêñòàõ âåðîÿòíîñòü íîðìèðóþò íà îäíî ñëîâî: 1 PPM (W ) = p(w1 . . . wN )− N Ëîãàðèôì ïåðïëåêñèè ñðåäíåå çíà÷åíèå îòðèöàòåëüíîãî ëîãàðèôìà âåðîÿòíîñòè ñëîâà â òåêñòå. log2 PPM (W ) = 1 N N X i=1 − log2 p(wi | . . .)  òåðìèíàõ òåîðèè èíôîðìàöèè îòðèöàòåëüíûé ëîãàðèôì âåðîÿòíîñòè ñîáûòèÿ ýòî ÷èñëî áèòîâ, íóæíîå íà åãî îïèñàíèå. Òî åñòü ìîäåëü òåì ëó÷øå, ÷åì ëåã÷å îïèñàòü ðåàëüíûé òåêñò â äàííîé ìîäåëè. Àëåêñåé Àíäðååâè÷ Ñîðîêèí Ëèíãâèñòè÷åñêèå àñïåêòû íîâûõ èíôîðìàöèîííûõ òåõíîëîãèé ßçûêîâûå ìîäåëè Ïðèìåíåíèå ÿçûêîâûõ ìîäåëåé Îäíî èç ïðèìåíåíèé ÿçûêîâûõ ìîäåëåé èñïðàâëåíèå îïå÷àòîê. Àëåêñåé Àíäðååâè÷ Ñîðîêèí Ëèíãâèñòè÷åñêèå àñïåêòû íîâûõ èíôîðìàöèîííûõ òåõíîëîãèé ßçûêîâûå ìîäåëè Ïðèìåíåíèå ÿçûêîâûõ ìîäåëåé Îäíî èç ïðèìåíåíèé ÿçûêîâûõ ìîäåëåé èñïðàâëåíèå îïå÷àòîê. Çàäà÷à ñâîäèòñÿ ê âûáîðó íàèáîëåå âåðîÿòíîãî ñëîâà â êîíòåêñòå: ïèòü? ×àé ñòîèò ïåòü? ðóáëåé ïÿòü Íóæíî íàéòè, êàêîå èç íåñêîëüêèõ âîçìîæíûõ ïðåäëîæåíèé íàèáîëåå âåðîÿòíî. Àëåêñåé Àíäðååâè÷ Ñîðîêèí Ëèíãâèñòè÷åñêèå àñïåêòû íîâûõ èíôîðìàöèîííûõ òåõíîëîãèé ßçûêîâûå ìîäåëè Ïðèìåíåíèå ÿçûêîâûõ ìîäåëåé Îäíî èç ïðèìåíåíèé ÿçûêîâûõ ìîäåëåé èñïðàâëåíèå îïå÷àòîê. Çàäà÷à ñâîäèòñÿ ê âûáîðó íàèáîëåå âåðîÿòíîãî ñëîâà â êîíòåêñòå: ïèòü? ×àé ñòîèò ïåòü? ðóáëåé ïÿòü Íóæíî íàéòè, êàêîå èç íåñêîëüêèõ âîçìîæíûõ ïðåäëîæåíèé íàèáîëåå âåðîÿòíî. Âåðîÿòíîñòü ðàñïèñûâàåòñÿ ïî áèãðàììíîé ìîäåëè: p(s) = p(÷àé)p(ñòîèò|÷àé)p(ïåòü |ñòîèò)p(ðóáëåé|ïåòü)p(.|ðóáëåé) Àëåêñåé Àíäðååâè÷ Ñîðîêèí Ëèíãâèñòè÷åñêèå àñïåêòû íîâûõ èíôîðìàöèîííûõ òåõíîëîãèé ßçûêîâûå ìîäåëè Ïðèìåíåíèå ÿçûêîâûõ ìîäåëåé Îäíî èç ïðèìåíåíèé ÿçûêîâûõ ìîäåëåé èñïðàâëåíèå îïå÷àòîê. Çàäà÷à ñâîäèòñÿ ê âûáîðó íàèáîëåå âåðîÿòíîãî ñëîâà â êîíòåêñòå: ïèòü? ×àé ñòîèò ïåòü? ðóáëåé ïÿòü Íóæíî íàéòè, êàêîå èç íåñêîëüêèõ âîçìîæíûõ ïðåäëîæåíèé íàèáîëåå âåðîÿòíî. Âåðîÿòíîñòü ðàñïèñûâàåòñÿ ïî áèãðàììíîé ìîäåëè: p(s) = p(÷àé)p(ñòîèò|÷àé)p(ïåòü |ñòîèò)p(ðóáëåé|ïåòü)p(.|ðóáëåé) Íóæíî íàéòè áèãðàììû, çàâèñÿùèå îò òåêóùåãî ñëîâà, è âû÷èñëèòü, â êàêîì ñëó÷àå èõ âåðîÿòíîñòü íàèáîëåå âåëèêà. Äîïîëíèòåëüíî ìîæíî ó÷åñòü, ÷òî ñëîâî, êîòîðîå íàïèñàíî â òåêñòå, áîëåå âåðîÿòíî, ÷åì åãî èñïðàâëåíèÿ. Àëåêñåé Àíäðååâè÷ Ñîðîêèí Ëèíãâèñòè÷åñêèå àñïåêòû íîâûõ èíôîðìàöèîííûõ òåõíîëîãèé