Ja. Das ist auch klar. Wie 1unitedpower schreibt brauchts dafür quasi-Intelligenz (Machine-Learning):
Man stellt ein paar Regelsätze auf wie wohl das mutmaßlich eigentliche Objekt zu finden sei, sucht also mit statistischen Methoden die mutmaßliche Position in dem man das Bild in ein Raster mit durchschnittlichen Farb- und Helligkeitswerten aufteilt (und hofft das das mutmaßlich interessante Objekt z.B. in oder nahe der Mitte ist (Es gibt auch dafür Grundregeln an welche sich die Fotografierenden hoffentlich bewusst oder unbewusst halten) und zwischen 25 und 75% der Bildfläche einnimmt), berechnet dann das Cropping (ebenfalls nach einem Satz von Grundregeln). Vorher kann man auch versuchen ein oder mehrere Gesichter, Gebäude oder z.b. Blüten zu finden (auch dafür gibt es mathematische Regeln) oder, bei Landschaftsaufnahmen, Linien wie den Horizont…
So könnte man das Problem auch angehen, das wäre aber kein Machine-Learning-Ansatz.
Beim ML stellt man keine Regeln auf, man erstellt ein Modell, trainiert es auf einem hinreichend großen Trainings-Datenset, und hofft, dass das trainierte Modell brauchbare Schlüsse über neue Daten ziehen kann.
Regeln, wie "der interessaten Bildbereich liegt nahe der Mitte", stecken höchstens implizit in dem trainierten Modell, sie werden aber nicht von den EntwicklerInnen vorgegeben, noch können wir das Modell inspizieren, um zu sehen, ob es eine solche Regel gelernt hat und anwendet.