Indizierung + Performance von Christian Kruse, 29.01.2010 13:41

SELF-Forum

Indizierung + Performance

Matzze 29.01.2010 10:03

datenbank

– Informationen zu den Bewertungsregeln

Matrix-Performance

Hallo zusammen,

habe eine Frage bzgl. der Indizierung bzw. performanten Umsetzung einer Matrix in MySQL

Beispiel:

Ich habe eine Tabelle "Personen"

  
id	name  
--------------  
1	Peter  
2	Horst  
3	Heidi

usw.

Und ich habe eine Tabelle in der festgehalten wird, in welchem Verhältnis diese Personen zu einander stehen "verhaeltnisse"

  
p1	verhaeltnis 		p2  
------------------------------------  
1	mag			2  
2	kann nicht leiden	1	  
1	liebt			3  
2	liebt			3  
3	liebt nur		2

usw.

Mit jedem "Scriptaufruf" wird eine gewisse Anzahl an Verhältnissen zur Weiterverarbeitung aufgerufen, d.h. z.B.

SELECT verhaeltnis FROM verhaeltnisse WHERE (p1 = 1 AND p2 = 3) OR (p1 = 2 AND p2 = 3) OR (p1 = 3 AND p2 = 1)

Mit jedem "Scriptaufruf" ändert sich einige Verhältnisse d.h. ein "UPDATE" wird auf die Tabelle angewendet.

Bei einer großen Anzahl N von Personen gibt es demnach bis zu (N^2 - N) Einträge in der Verhältnisse-Tabelle, bei 10.000 wären dies also satte 99990000 Einträge.

1. Frage: Gibt es einen anderen Weg eine solche Matrix zu erstellen, ohne dass die Tabelle so groß wird?

2. Frage: Wenn man eine solch große Tabelle benutzt, ist natürlich eine sinnvolle Indizierung zwingend. Laut Referenz soll man "abwägen" welche Spalten zur Indizierung sinnvoll wären. Klar könnte ich einfach p1 und p2 nehmen, aber: Da bei jedem Scriptaufruf sowohl ein SELECT (mag Indizes, weil es dadurch viel schneller wird) als auch ein UPDATE (mag keine Indizes, weil es jedesmal den Index neu schreiben muss) anfallen - was wäre denn nun die sinnvollste Indizierung einer solchen Matrix? Hat da jemand Erfahrungswerte oder weiss, wie man die Performance vergleicht zwischen dem, was man bei Suche durch Indexe spart und dem was man beim Updaten wieder einbüßt?

Danke und Gruß,

Matzze

Beitrag melden

– Informationen zu den Bewertungsregeln

Indizierung + Performance
Christian Kruse Homepage des Autors 29.01.2010 11:12

datenbank
– Informationen zu den Bewertungsregeln
你好 Matzze,
1. Frage: Gibt es einen anderen Weg eine solche Matrix zu erstellen, ohne dass die Tabelle so groß wird?
Mir würde jetzt konkret keine andere Möglichkeit einfallen.
1. Frage: Wenn man eine solch große Tabelle benutzt, ist natürlich eine sinnvolle Indizierung zwingend. Laut Referenz soll man "abwägen" welche Spalten zur Indizierung sinnvoll wären. Klar könnte ich einfach p1 und p2 nehmen, aber: Da bei jedem Scriptaufruf sowohl ein SELECT (mag Indizes, weil es dadurch viel schneller wird) als auch ein UPDATE (mag keine Indizes, weil es jedesmal den Index neu schreiben muss) anfallen - was wäre denn nun die sinnvollste Indizierung einer solchen Matrix? Hat da jemand Erfahrungswerte oder weiss, wie man die Performance vergleicht zwischen dem, was man bei Suche durch Indexe spart und dem was man beim Updaten wieder einbüßt?
Naja, ich an deiner Stelle würde einen kombinierten Index über p1 und p2 erstellen. Also nicht zwei einzelne Indizes, sondern einer über beide Spalten.

Denn m.E.n. ist deine Abfrage immer abhängig von sowohl p1 (als erstes Kriterium) als auch von p2 (als zweites Kriterium) und ist damit prädestiniert für diese Art von Index.

再见,
克里斯蒂安

--
http://wwwtech.de/
<Tim> Ich bin nicht hier, um zu helfen. Mir hilft ja auch keiner. Sogar mein Brötchen muss ich mir jetzt selber schmieren.
Kompromisse und andere Widerlichkeiten – Hochzeit mit Flitterwochen
Beitrag melden

–
Informationen zu den Bewertungsregeln
1. Indizierung + Performance
  
  Matzze 29.01.2010 11:55
  
  datenbank
  – Informationen zu den Bewertungsregeln
  Naja, ich an deiner Stelle würde einen kombinierten Index über p1 und p2 erstellen. Also nicht zwei einzelne Indizes, sondern einer über beide Spalten.
  
  Denn m.E.n. ist deine Abfrage immer abhängig von sowohl p1 (als erstes Kriterium) als auch von p2 (als zweites Kriterium) und ist damit prädestiniert für diese Art von Index.
  
  Ja, wäre auch mein Ansatz gewesen, der kombinierte Index könnte dann ja sogar auch unique sein.
  
  Hab nur leider in der MySQL-Referenz schwer rausfinden können, wie performance-aufwändig in dem Fall dann ein INSERT oder UPDATE (resp. "REPLACE") sein würde. Vielleicht hilft mir ja EXPLAIN weiter, ich check das mal.
  
  Danke dennoch!
  Beitrag melden
  
  –
  Informationen zu den Bewertungsregeln
  Übersicht
  
  alle Foren
  
  SELFHTML-Forum
  
  anmelden
  
  Benutzerkonto erstellen
  
  Beitrag im Thread-Baum
  1. Indizierung + Performance
    
    Christian Kruse Homepage des Autors 29.01.2010 13:41
    
    datenbank
    
    +2 Informationen zu den Bewertungsregeln
    你好 Matzze,
    
    Hab nur leider in der MySQL-Referenz schwer rausfinden können, wie performance-aufwändig in dem Fall dann ein INSERT oder UPDATE (resp. "REPLACE") sein würde. Vielleicht hilft mir ja EXPLAIN weiter, ich check das mal.
    
    Ich glaube, du liegst der Fehlinformation auf, dass Indizes prinzipiell schlecht sind für INSERT oder UPDATE. Das ist nicht der Fall. Je nachdem, wie viele Datensätze ein UPDATE betrifft, kann ein Index sogar ein massiver Gewinn sein – denn auch hier muss ja das WHERE ausgewertet werden. Ähnlich beim INSERT: ein Index kann z. B. dann förderlich sein, wenn Constraints beachtet werden müssen, etwa ein Unique.
    
    再见,
    克里斯蒂安
    
    --
    http://wwwtech.de/
    Death is God's way of telling you not to be such a wise guy.
    Kompromisse und andere Widerlichkeiten – Hochzeit mit Flitterwochen
    Beitrag melden
    
    +2
    Informationen zu den Bewertungsregeln
    
    Übersicht
    
    alle Foren
    
    SELFHTML-Forum
    
    anmelden
    
    Benutzerkonto erstellen
    
    Beitrag im Thread-Baum
Indizierung + Performance
Ilja 29.01.2010 13:11

datenbank
– Informationen zu den Bewertungsregeln
moin,
1. Frage: Gibt es einen anderen Weg eine solche Matrix zu erstellen, ohne dass die Tabelle so groß wird?
nicht wirklich, du brauchst ja all diese informationen. insofern müssen sie auch rein in die datenbank. was man machen könnte wäre eine partitionierung, das heißt in teilbereiche aufteilen.
1. Frage: Wenn man eine solch große Tabelle benutzt, ist natürlich eine sinnvolle Indizierung zwingend.
eine nicht ganz richtige aussage. die frage ist nicht nur, ob die tabelle gross ist, sondern welche anweisungen du dort ausführst. wenn du zum beispiel immer alle datensätze ändernst oder selektierst, dann bringt dir ein index wenig, egal wie große die tabelle ist.

Da bei jedem Scriptaufruf sowohl ein SELECT (mag Indizes, weil es dadurch viel schneller wird) als auch ein UPDATE (mag keine Indizes, weil es jedesmal den Index neu schreiben muss) anfallen - was wäre denn nun die sinnvollste Indizierung einer solchen Matrix?

erst einmal stellst sich die frage, ob man das SELECT vorher überhaupt braucht und nicht gleich ein update machen kann. das hängt von dem jeweiligen fall ab. und auch bei einem update kann ein index, sehr viel bringen. so wie bei den abfragen hängt dies aber sehr stark davon ab, wie das update genutzt wird.

oder mit anderen worten, tuning ist eine sehr individuelle sache, je mehr infos man hat, desto besser.

Ilja
Beitrag melden

–
Informationen zu den Bewertungsregeln

SELFHTML Forum - Ergänzung zur Dokumentation Übersicht

Matzze: Indizierung + Performance