![book](Okladki/ISBN/8301/m8301158689.jpg)
![book](Okladki/ISBN/8301/m8301158689.jpg)
Eksploracja zasobów internetowych : analiza struktury, zawartości i użytkowania sieci WWW
Odkrywanie tajemnic wyszukiwarek i internautów!Eksploracja zasobów internetowych to podręcznik umożliwiający odkrywanie wzorców w strukturze, zawartości i użytkowaniu sieci WWW.Książka składa się z 3 części:część I - Analiza struktury sieci WWW - zawiera podstawowe idee i metody wyszukiwania informacji tekstowej;część II - Analiza zawartości sieci WWW - dotyczy metod uczenia maszynowego i eksploracji
danych, porządkujących sieć według zawartości - grupowanie i klasyfikacja;część III - Analiza użytkowania sieci WWW - odpowiada na pytanie: jak stosować metody eksploracji danych do badania zachowań użytkowników sieci w celach marketingowych i handlowych.Podręcznika zawiera wiele przykładów i ćwiczeń do samodzielnego wykonania. Przedstawiono w nim rzeczywiste przypadki eksploracji danych.Publikacji towarzyszy prowadzona przez autora strona internetowa: www.dataminingconsultant.com (ang.).
Zobacz pełny opisOdpowiedzialność: | Zdravko Markov, Daniel T. Larose ; z jęz. ang. przeł. Anna Wilbik. |
Seria: | Informatyka - Zastosowania |
Hasła: | Internet Podręczniki akademickie |
Adres wydawniczy: | Warszawa : Wydaw. Naukowe PWN, 2009. |
Opis fizyczny: | XVI, 224 s. : il. ; 25 cm. |
Uwagi: | Na 4 s. okł.: Odkrywanie tajemnic internauów i wyszukiwarek. Bibliogr. przy rozdz. Indeks. |
Przeznaczenie: | Książka jest przeznaczona dla studentów i wykładowców informatyki, ekonomii, zarządzania na uniwersytetach, uczelniach technicznych i ekonomicznych. |
Skocz do: | Dodaj recenzje, komentarz |
- Przedmowa
- 0.1. Definicja eksploracji zasobów sieciowych
- 0.2. Cykl książek o eksploracji danych
- 0.3. Jak zbudowana jest ta książka?
- 0.4. Dlaczego ta książka jest potrzebna?
- 0.5. Podejście typu „biała skrzynka” – zrozumienie podstawowych struktur algorytmów i modeli
- 0.5.1. Omówienie działania algorytmów
- 0.5.2. Zastosowanie algorytmów do dużego zbioru danych
- 0.5.3. Ćwiczenia do rozdziałów – upewnij się, że rozumiesz
- 0.5.4. Ćwiczenia praktyczne – nauka eksploracji danych przez wykonywanie eksploracji danych
- 0.6. Eksploracja danych jako proces
- 0.7. Oprogramowanie
- 0.8. Strona internetowa: www.dataminingconsultant.com
- 0.9. Eksploracja zasobów internetowych jako podręcznik
- 0.10. Podziękowania
- I. Analiza struktury sieci WWW
- 1. Wyszukiwanie informacji tekstowych i wyszukiwanie w Internecie
- 1.1. Wyzwania sieci
- 1.1.1. Wyszukiwarki internetowe
- 1.1.2. Katalogi stron WWW
- 1.1.3. Semantic Web
- 1.2. Ściąganie stron internetowych
- 1.2.1. Podstawy WWW
- 1.2.2. Roboty internetowe
- 1.3. Indeksowanie i wyszukiwanie według słów kluczowych
- 1.3.1. Reprezentacja dokumentów
- 1.3.2. Rozważania na temat implementacji
- 1.3.3. Ranking ważności
- 1.3.4. Zaawansowane wyszukiwanie tekstów
- 1.3.5. Używanie struktury HTML do wyszukiwania słów kluczowych
- 1.4. Ocena jakości wyszukiwania
- 1.5. Wyszukiwanie według podobieństwa
- 1.5.1. Miara (odległość) kosinusowa
- 1.5.2. Współczynnik Jaccarda
- 1.5.3. Podobieństwo dokumentów
- 1.6. Literatura
- 1.7. Ćwiczenia
- 2. Ranking oparty na strukturze połączeń
- 2.1. Wprowadzenie
- 2.2. Analiza sieci społecznych
- 2.3. Algorytm PageRank
- 2.4. Autorytety i koncentratory
- 2.5. Wyszukiwanie oparte na podobieństwie strukturalnym
- 2.6. Zaawansowane techniki tworzenia rankingów stron
- 2.7. Literatura
- 2.8. Ćwiczenia
- II Analiza zawartości sieci WWW
- Grupowanie
- 3.1. Wprowadzenie
- 3.1.1. Aglomeracyjne grupowanie hierarchiczne
- 3.2. Algorytm k-średnich
- 3.3. Grupowanie oparte na prawdopodobieństwie
- 3.3.1. Problem skończonej mieszaniny
- 3.3.2. Problem klasyfikacji
- 3.3.3. Problem grupowania
- 3.4. Techniki wspólnego filtrowania (systemy rekomendacyjne)
- 3.5. Literatura
- 3.6. Ćwiczenia
- 4. Ocena grupowania
- 4.1. Podejścia do oceny grupowania
- 4.2. Funkcje kryterialne oparte na podobieństwie
- 4.3. Probabilistyczne funkcje kryterialne
- 4.4. Model oparty na zasadzie minimalnej długości opisu i ocena cech
- 4.4.1. Zasada minimalnej długości opisu
- 4.4.2. Ocena modelu opartego na zasadzie minimalnej długości opisu
- 4.4.3. Wybór cech
- 4.5. Ocena za pomocą odwzorowania klas do grup
- 4.6. Dokładność, kompletność i miara F
- 4.7. Entropia
- 4.8. Literatura
- 4.9. Ćwiczenia
- 5. Klasyfikacja
- 5.1. Ogólne otoczenie i techniki oceny
- 5.2. Algorytm najbliższego sąsiada
- 5.3. Wybór cech
- 5.4. Naiwny algorytm Bayesa
- 5.5. Podejścia numeryczne
- 5.6. Relacyjne uczenie się – relational learning
- 5.7. Literatura
- 5.8. Ćwiczenia
- III. Analiza użytkowania sieci WWW
- 6. Wprowadzenie do analizy użytkowania sieci WWW
- 6.1. Definicja analizy użytkowania sieci WWW
- 6.2. Metodologia Cross–Industry Standard Process for Data Mining
- 6.3. Analiza kliknięć
- 6.4. Pliki log serwera
- 6.4.1. Pole adresu IP hosta
- 6.4.2. Pole Data/Czas
- 6.4.3. Pole żądania HTTP
- 6.4.4. Pole kodu odpowiedzi HTTP
- 6.4.5. Pole wielkości transferu (bajty)
- 6.5. Format CLF
- 6.5.1. Pole nazwy użytkownika
- 6.5.2. Pole authuser
- 6.6. Format ECLF
- 6.6.1. Pole adresu strony odsyłającej
- 6.6.2. Pole przeglądarki klienta
- 6.6.3. Przykład rekordu pliku log
- 6.7. Format Microsoft IIS
- 6.8. Dodatkowe informacje
- 6.9. Literatura
- 6.10. Ćwiczenia
- 7. Wstępne przetwarzanie danych do analizy użytkowania sieci WWW
- 7.1. Konieczność wstępnego przetwarzania danych
- 7.2. Czyszczenie i filtrowanie danych
- 7.2.1. Badanie rozszerzeń stron i filtrowanie
- 7.3. Usuwanie z pliku log wpisów robotów internetowych
- 7.4. Identyfikacja użytkownika
- 7.5. Identyfikacja sesji
- 7.6. Uzupełnianie ścieżek
- 7.7. Katalogi i przypisanie kategorii
- 7.8. Dalsze kroki wstępnego przetwarzania danych
- 7.9. Literatura
- 7.10. Ćwiczenia
- 8. Eksploracyjna analiza użytkowania sieci WWW
- 8.1. Wprowadzenie
- 8.2. Liczba żądań w sesji
- 8.3. Długość sesji
- 8.3.1. Procedura obliczania długości sesji
- 8.4. Zależność między długościąsesji a liczbą żądań użytkownika
- 8.5. Średni czas na stronę
- 8.6. Czas dla pojedynczych stron
- 8.7. Literatura
- 8.8. Ćwiczenia
- 9. Modelowanie użytkowania sieci WWW: grupowanie, reguły asocjacyjne i klasyfikacja
- 9.1. Wprowadzenie
- 9.2. Metodologia modelowania
- 9.3. Definicja grupowania
- 9.4. Algorytm grupowania BIRCH
- 9.5. Analiza podobieństw i algorytm Apriori
- 9.6. Dyskretyzacja zmiennych numerycznych
- 9.7. Zastosowanie algorytmu Apriori do danych pliku log serwera CCSU
- 9.8. Drzewa klasyfikacyjne i regresyjne
- 9.9. Algorytm C4.5
- 9.10. Literatura
- 9.11. Ćwiczenia
- Indeks
Zobacz spis treści