Beispiel Kugelbaum

Inhaltsverzeichnis

Beim k-Nearest-Neighbour-Algorithmus werden die Beispieldaten zunächst in einem n-dimensionalen Raum dargestellt, wobei „n“ die Anzahl der Datenattribute ist. Jeder Punkt im n-dimensionalen Raum ist mit seinem Klassenwert gekennzeichnet. Um die Klassifizierung von nicht klassifizierten Daten zu entdecken, wird der Punkt auf diesem n-dimensionalen Raum aufgetragen und Klassenetiketten der nächsten k Datenpunkte werden notiert. Diejenige Klasse, die unter den k nächsten Datenpunkten am häufigsten vorkommt, wird als Klasse des neuen Datenpunkts genommen. Das heißt, die Entscheidung erfolgt durch Abstimmung über k benachbarte Punkte. Einer der großen Vorteile dieses generischen K-Nearest-Neighbor-Algorithmus für die Klassifizierungserkennung ist, dass er für parallele Operationen zugänglich ist.

  • Fold, was zu einer flacheren Baumstruktur führt, benötigen daher weniger Entfernungsberechnungen, was normalerweise zu schnelleren Abfragen führt.
  • Die Kugelbaum-Datenstruktur ist sehr effizient, insbesondere in Situationen, in denen die Anzahl der Dimensionen sehr groß ist.
  • Sie wächst gerne in voller Sonne oder im Halbschatten, braucht einen geschützten Standort und mag am liebsten feuchten, aber gut durchlässigen Boden.

image

Ohio Rosskastanie verfärbt sich im Herbst orangerot bis rotbraun; Rosskastanien werden gelb oder braun. Beide tragen im Frühling auffällige Blüten, denen stachelige oder stachelige Kapseln folgen, die sich im Herbst öffnen, um 1 oder 2 Nüsse im Inneren freizusetzen. Im Gegensatz zu echten Kastanien sind die Nüsse der Aesculus-Arten für den Menschen giftig, wenn sie gegessen werden. Sie müssen kein ausgebildeter Baumpfleger sein, um zu bemerken, dass bestimmte Bäume einzigartige Merkmale haben, die Ihnen helfen können, sie zu identifizieren.

Hier ist ein Blick darauf, welche Pflanzen spitze, runde Kugeln produzieren könnten, die fast wie etwas von einem anderen Planeten aussehen. Sobald diese Datenstruktur erstellt ist, ist es einfach, die Nachbarschaft jedes Punktes herauszufinden. Um beispielsweise die Nachbarschaft eines Punktes zu finden, bewegen wir uns in der Hierarchie nach links oder rechts. Zuerst vergleichen wir am Wurzelknoten 25 mit dem Wert an der Wurzel, dann vergleichen wir am nächsten Knoten 16 und zuletzt 9. Im Allgemeinen werden auch Entfernungen von den Punkten in der Tabelle auf der anderen Seite dieses Knotens berechnet, um die nächstgelegenen Punkte zu entdecken. Man kann sich auch eine Stufe im Baum nach oben bewegen, um die nächsten Punkte zu entdecken.

image

Osage Orange Samen, 100 Samen Maclura Pomifera, Milchorangenbaum, L'Oranger Des Osages, Osagedoorn, Espino De Los Osages

Zur Vereinfachung der Darstellung haben wir die vierte Spalte, die Klassenbezeichnungen Venovi für jeden Datensatz enthält, nicht gezeigt. Wir sortieren den Datensatz nach diesem Attribut und teilen ihn dann am Median in zwei Teile. Wenn True, dann werden Entfernungen und Indizes jedes Punktes bei der Rückgabe sortiert, sodass die erste Spalte die nächstgelegenen Punkte enthält.

Informatik > Datenbanken

Jeder Punkt im n-dimensionalen Raum gehört zu einem der Cluster, aber nicht zu beiden. Er gehört zu dem Haufen, von dessen Schwerpunkt seine Entfernung geringer ist. Wenn der Abstand dieses Punktes von den Schwerpunkten beider Kugeln gleich ist, kann er in irgendeiner der Gruppen enthalten sein. Es ist möglich, dass sich beide Hyperkugeln schneiden, aber die Punkte gehören nur zu einer der beiden.

Das Ziel eines solchen Algorithmus ist es, einen Baum zu erzeugen, der Abfragen des gewünschten Typs (z. B. nächster Nachbar) im Durchschnittsfall effizient unterstützt. Die spezifischen Kriterien eines idealen Baums hängen von der Art der zu beantwortenden Frage und der Verteilung der zugrunde liegenden Daten ab. Ein allgemein anwendbares Maß für einen effizienten Baum ist jedoch eines, das das Gesamtvolumen seiner internen Knoten minimiert.

Angesichts der unterschiedlichen Verteilungen realer Datensätze ist dies eine schwierige Aufgabe, aber es gibt mehrere Heuristiken, die die Daten in der Praxis gut partitionieren. Im Allgemeinen gibt es einen Kompromiss zwischen den Kosten für die Konstruktion eines Baums und der durch diese Metrik erzielten Effizienz. Neben der Verwendung von Diagrammen zur Untersuchung der Rolle und Struktur von Kugelbäumen können diese Elemente auch in Bezug darauf verstanden werden, was Entwickler üblicherweise mit ihnen machen. Eine häufige Aufgabe bei Kugelbaumstrukturen ist das „Beschneiden“, wobei die eindrucksvolle Metapher zeigt, dass das Ändern von Code dem Fällen eines physischen Baums oder Strauchs ähnelt, um ihn zu formen.