Wyższy standard skuteczności
Blog
Informacje z branży i życia firmy
Wybierz dziedzinę

Polacy nie gęsi i… swoją wyszukiwarkę mają

Opublikowano: 14-05-2014

Po co Nekst, skoro jest Google?
"Nawet Google czy Yahoo, przy całej swojej potędze, prawdopodobnie nie mają zebranego całego polskiego Internetu" – tłumaczy kierownik projektu, prof. Jacek Koronacki, dyrektor IPI PAN. Z wyliczeń wynika, że wyszukiwarki te są w stanie zgromadzić tak naprawdę co piąty dokument polskojęzyczny, gdy tymczasem twórcom projektu udało się zebrać już około 160 mln takich treści (stan ze stycznia 2014r.), czyli ok. 16%. Wszystkie dokumenty są na bieżąco opisywane i porządkowane, co pozwala na przetwarzanie ich zgodnie z potrzebami wyszukiwania.

 

Źródło:IPIPAN

 

Cel projektu został określony przez twórców w założeniach statutowych: „Celem projektu jest konstrukcja systemu wspomagającego rozwiązywanie szerokiej klasy problemów w oparciu o analizę struktury i treści dostępnych elektronicznych dokumentów pod kątem wyrażonej w nich wiedzy i informacji w postaci tekstu i wybranych elementów multimedialnych” (IPIPAN)

 

Nekst konkurencją dla Google?
Sami twórcy projektu podkreślają, iż rodzima wyszukiwarka nie miała na względzie konkurowania z międzynarodowym gigantem. Nekst ma być pomocą dla polskich Internatutów, którzy poszukują konkretnych wiadomości w polskim języku i nie mają ochoty przekopywać się przez strony zapełnione linkami odnoszącymi wyłącznie do popularnych stron, portali, itp. uszeregowanych zgodnie z regułami pozycjonowania.


Jak będzie działała rodzima wyszukiwarka?
Nekst ma być oparty na zupełnie odmiennych algorytmach niż dotychczasowe wyszukiwarki międzynarodowe, które nie są w żadnej mierze oparte na naśladowaniu języka. Nasz rodzimy system to pierwsza w Europie wyszukiwarka semantyczna dla narodowego języka zamierzona na tak dużą skalę.  W założeniu system opiera się na połączeniu mechanizmów:
 - automatycznej kwerendy na pytania w języku polskim,
 - automatycznej analizy opinii,
 - przekrojowej, wielkoskalowej analizy semantycznej źródeł elektronicznych,
 - wyszukiwaniu oraz wizualizacji wyników.


Pracujący nad projektem naukowcy skupili się na takiej konstrukcji, która nie będzie wyszukiwała wyłącznie na podstawie słów kluczowy, a raczej bazując na analizie zgromadzonych tekstów pod kątem najczęściej pojawiających się, najważniejszych wyrażeń wielosłownych i pojedynczych fraz. Pozwali to na dokładniejszą kategoryzację i klasyfikację treści, a tym samym na precyzyjniejsze odnajdywanie trafionych wyników. Nasze rozwiązanie idzie dalej w tym sensie, że po pierwsze poza zasobem informacji zawartej w Wikipedii uwzględniamy też informacje płynące z pozostałych serwisów internetowych, po drugie nie wprowadzamy ograniczeń na typy relacji jakie mogą zaistnieć pomiędzy węzłami grafu wiedzy. - prof. Jacek Koronacki.

 

Źródło: Na temat


Dla usprawnienia działania mechanizmu w zrozumieniu języka polskiego, została stworzona specjalna ontologia. Jest to zbiór pojęć i związków między nimi, co daje możliwość porządkowania treści w rodzimym języku oraz odnajdywania informacji z nimi powiązanych. Pozwoli to również na zadawanie pytań w sposób naturalny. Zespół pracuje również nad tym, aby w wynikach wyszukiwania pojawiło się zabarwienie emocjonalne, oznacza to, że od razu pojawią się wskazania dotyczące tego, czy dany fragment treści opisuje w sposób negatywny bądź pozytywny poszukiwaną osobę, wydarzenie, itp. Warto zwrócić uwagę, że wyniki będą wskazywały nie tylko linki do stron, ale także interesujący fragment strony.

Pomocna w wyszukiwaniu wartościowych informacji będzie także funkcja wyszukiwania plagiatów, która pozwoli odnaleźć duplikaty treści nawet jeśli słowa zastąpione zostaną synonimami, a szyk wyrazów zmieniony. Trwają również prace nad analizowaniem obrazów tak, aby wyszukiwarka była w stanie rozpoznać co przedstawia grafika.

 

Źródła: Antyweb, IPIPAN,PAP, Komputer Świat, Interaktywnie, Na temat, Gazeta Wrocławska

Autor
Magdalena Drajkowska
Ocena artykułu
5.00 - (6 głosów)
Komentarze
Dodaj komentarz
Ostrzeżenie: Uwaga na firmę o podobnej nazwie! Więcej...
Zapoznałem się