Tax Compliance Technologie
Christian Schwarz

Verrechnungspreise: Der interne Fremdvergleich im Lichte der künstlichen Intelligenz

Verrechnungspreise beschreiben Wertansätze für den Güter- und Dienstleistungsaustausch innerhalb von Unternehmen und Konzernen, welche nicht über Angebot und Nachfrage freier Märkte koordiniert werden. Sie sind vielmehr Subjekt einer zweckorientierten Bewertung durch Unternehmen. Aus der steuerlichen Perspektive sollen Verrechnungspreise hierbei das Ergebnis der Preissetzung zwischen fremden Dritte modellieren (Fremdvergleichsgrundsatz). Oftmals bilden Verrechnungspreise einen Schwerpunkt in steuerlichen Betriebsprüfungen bei multinationalen Unternehmensgruppen. Häufiger Ausgangspunkt kontroverser Diskussionen zwischen Unternehmen und Finanzverwaltung ist dabei insbesondere die Einhaltung des Fremdvergleichsgrundsatzes „der Höhe nach“ (sog. Angemessenheitsdokumentation).

Fremdvergleichsanalyse

Grundsätzlich sind im Rahmen der Fremdvergleichsanalyse Konditionen einer gruppeninternen Geschäftsbeziehung mit den Konditionen vergleichbarer Geschäftsbeziehungen zwischen fremden Dritten zu analysieren. Diese sog. Vergleichbarkeitsfaktoren sind i) Merkmale und Besonderheiten der betreffenden Wirtschaftsgüter, ii) ausgeübte Funktionen, übernommene Risiken sowie die eingesetzten Wirtschaftsgüter, iii) vertragliche Bedingungen, iv) wirtschaftliche Umstände im maßgeblichen Markt und v) Geschäftsstrategie.

Fremdvergleichsdaten können dabei aus verschiedenen Quellen extrahiert werden, insbesondere

  • Geschäftsvorfälle der maßgeblichen Gruppengesellschaft mit fremden Dritten (betriebsinterner Fremdvergleich),
  • Geschäftsvorfälle anderer Gruppengesellschaften mit fremden Dritten (gruppeninterner Fremdvergleich), und
  • Geschäftsvorfälle zwischen Dritten (betriebsexterner Fremdvergleich).

Die ersten beiden Arten des Fremdvergleichs erfassen Geschäftsbeziehungen einer multinationalen Unternehmensgruppe mit fremden Dritten und sind dadurch gekennzeichnet, dass detaillierte Informationen und Daten für die Vergleichbarkeitsanalyse zur Verfügung stehen. Da allerdings nicht immer eine hinreichend große Anzahl an geeigneten Vergleichstransaktionen gruppenintern beobachtet werden können, werden in der Praxis häufig auch Bandbreiten vergleichbarer Margen aus Datenbanken (sog. Benchmarking) abgeleitet. Dem Vorteil einer hinreichenden Anzahl an Beobachtungen steht hierbei eine geringere Transparenz hinsichtlich der den Geschäftsvorfällen tatsächlich zugrunde liegenden Konditionen entgegen.

Im Zuge der Digitalisierung und der steigenden Verfügbarkeit strukturierter Daten in Unternehmen und des weitereichenden Datenzugriffs durch die Finanzbehörden ist allerdings zu erwarten, dass die Einbeziehung diverser digital verfügbarer Daten in die Fremdvergleichsanalyse in der Zukunft erheblich an Bedeutung gewinnen wird.

Beachte | In diesem Fall ist es wahrscheinlich, dass die Güte des betriebs- und gruppeninternen Fremdvergleichs ansteigen und damit auch stärker an Bedeutung gewinnen wird.

Anforderungen an die Fremdvergleichsmethode

Während die Anforderungen an die Vergleichbarkeit der Transaktionen im Rahmen der Preisvergleichsmethode sehr hoch sind, wirken sich bei einem Fremdvergleich mittels (Netto-)Margen Unterschiede in den Produkten weniger stark auf den Aussagegehalt der Fremdvergleichsanalyse aus. Denn hierbei liegt der Fokus stärker auf einer Vergütung der Funktionen und Risiken als auf dem Produktpreis selbst. Dennoch können Unterschiede in den Geschäftsbedingungen (wie Produktspezifikation, Menge, Land, Zahlungsziel etc.) einen Einfluss auf die realisierbare Marge haben.

Die erzielbaren Margen sind häufig über vergleichbare, aber nicht identische Produktgruppen hinweg vergleichbar und eignen sich daher für die Fremdvergleichsanalyse. Da für diese unternehmens- oder gruppeninternen Margen eine umfassende Datengrundlage zur Verfügung steht, können die Bedeutung und Wirkungsstärke einzelner Parameter auf die Marge valide und fundiert analysiert werden. Da im Rahmen dieser Analyse eine große Datenmenge ausgewertet wird, bietet es sich an, hierauf statistische Methoden der Datenauswertung anzuwenden. Ziel dieser Analyse ist es, letztlich Unterschiede in den vereinbarten Geschäftsbedingungen mit verbundenen und unverbundenen Unternehmen zu analysieren und deren Bedeutung für die erzielbare Marge zu bestimmen.

Künstliche Intelligenz

Neben etablierten statistischen Verfahren, wie klassische Regressionsanalysen, benötigen auch neue Methoden der künstlichen Intelligenz eine hinreichend große und verlässliche Datengrundlage, um letztlich aussagekräftige Ergebnisse zu generieren.

Darauf aufbauend versteht man unter künstlicher Intelligenz Algorithmen, die menschliche Entscheidungsregeln „nachahmen“. Dabei werden statistische bzw. mathematische Methoden kombiniert, um in sehr großen Datensätzen Muster zu erkennen und komplexe (nicht-lineare) Zusammenhänge zu identifizieren.

Als Teilbereich der künstlichen Intelligenz ist bislang das sog. „Maschinelle Lernen“ sehr erfolgreich. Hierbei lernen die Algorithmen der künstlichen Intelligenz auf Trainingsdatensätzen Entscheidungsregeln und wenden diese dann auf Validierungsdatensätzen an. Es hat sich in der Anwendungspraxis gezeigt, dass insbesondere „künstliche neuronale Netze“ sowie der „Random Forest“ sehr gute Resultate (beispielsweise im Sinne der Prognosegenauigkeit) liefern konnten. Gerade für die Unterscheidung zwischen verschiedenen Transaktionstypen (z.B. die Unterscheidung von Transaktionen mit verbundenen und unverbundenen Unternehmen), liefern künstliche neuronale Netze und Random Forests valide und belastbare Ergebnisse.

Hinweis | Hierbei sind diese gegenüber den traditionellen Methoden, wie Regressionsanalysen, überlegen, da sie leichter eine Vielzahl von Vergleichbarkeitsfaktoren „automatisiert“ berücksichtigen.

Künstliche neuronale Netze bestehen aus einer Vielzahl von Ebenen (sog. Layer). Hierbei werden die Datengrundlage (Input-Layer) mit der Outputgröße (Output-Layer, beispielsweise die Klassifikation in konzerninterne- und externe Transaktionen) verknüpft. Die „künstliche Intelligenz“ im neuronalen Netz kommt in dem Verbindungsstück zwischen Input- und Output-Layer, den sog. Hidden-Layer, zur Entfaltung. In Analogie zur Funktionswiese des menschlichen Gehirns vollzieht jeder Impuls (z.B. jede Transaktion mit ihren spezifischen Charakteristika) „einen Weg“ durch die Hidden-Layer und stimuliert dabei die Neuronen bis hin zum Output-Layer.

Auch Random Forests sind Algorithmen der künstlichen Intelligenz, gehören aber zur Klasse der Entscheidungsbaum-Algorithmen. Entscheidungsbäume können auch als Klassifizierungsmodell im Rahmen der Fremdvergleichsanalyse eingesetzt werden und lassen sich quasi als hierarchische Top-Down Baumstruktur interpretieren. Hierbei repräsentiert

  • jeder „Knoten“ des Entscheidungsbaums ein Merkmal aus dem Eingaberaum (vergleichbar dem Input-Layer bei künstlichen neuronalen Netzen, wie Produktkategorien, Länderinformationen und Zeitpunkt der Transaktion),
  • jede Verzweigung eine Entscheidung (des Algorithmus) und
  • jedes Blatt am Ende einer Verzweigung den entsprechenden Ausgabewert (hier Wahrscheinlichkeit entweder zur Klasse gruppeninterner oder gruppenexterner Transaktionen zu gehören).

Ähnlich wie bei künstlichen neuronalen Netzen wird beim Random Forest der Entscheidungsbaum über einen Lernprozess unter Verwendung von Trainingsdaten erstellt und optimiert. Die beiden folgenden Grafiken illustrieren vereinfachend die beiden Algorithmen.

Grafik: künstliches neuronales Netz
Abbildung 1: Künstliches neuronales Netz
random forest
Abbildung 2: Random Forest

Praxisbeispiel

Im Praxisbeispiel ist aus der Sicht eines deutschen Warenproduzenten zu analysieren, ob sich die vereinbarten Konditionen gegenüber gruppeninternen Distributoren von den Konditionen unterscheiden, die gegenüber unverbundenen Distributoren in hinreichend vergleichbaren Transaktionen vereinbart wurden. Insbesondere steht die Frage im Raum, ob die gruppenintern realisierten Margen im Vergleich zu den mit fremden Dritten erzielten Margen zu niedrig sind.

Zur Beurteilung der Güte der Ergebnisse eines künstlichen neuronalen Netzes oder Random Forests können in Abhängigkeit der Problemstellung unterschiedliche Kennziffern herangezogen werden. In einem ersten Schritt ist eine sog. Konfusionsmatrix zu erstellen. Diese gibt an, in welchen Fällen das künstliche neuronale Netz oder der Random Forest das Ergebnis korrekt vorausgesagt hat und in welchen Fällen es eine Abweichung zwischen der Realität und der Voraussage des Algorithmus gab.

Auf Basis dieser Konfusionsmatrix kann im Rahmen der Fremdvergleichsanalyse abgeleitet werden, in wieviel Prozent der Fälle das künstliche neuronale Netz bzw. der Random Forest auf Basis der determinierenden Eingabedaten (hier Vergleichbarkeitsfaktoren) korrekt feststellen konnte, ob die Geschäftsbeziehung mit einem verbundenen oder einem unverbundenen Unternehmen erfolgt ist.

Diese Kennziffer wird als „Accuracy“ bezeichnet und ist eine wichtige Größe zur Beurteilung der Performance des Algorithmus. Mit anderen Worten zeigt die Accuracy an, wie häufig eine korrekte Zuordnung durch den Algorithmus auf Grundlage der Eingabedaten erfolgt ist. Hierbei ist festzustellen, dass beide Algorithmen bei zunehmenden Unterschieden in den Bedingungen einer Geschäftsbeziehung zwischen verbundenen und unverbundenen Unternehmen eine erheblich höhere Prognosegenauigkeit und damit auch Accuracy aufweist.

Im Praxisbeispiel wurden beide Methoden zur Anwendung gebracht und konnten hierbei lediglich eine Prognosegenauigkeit von rund 75% erzielen. Somit können beide Algorithmen mit einer Wahrscheinlichkeit von 75% richtig zwischen unternehmensinternen und -externen Transaktionen unterscheiden. Im Allgemeinen ist dies für Anwendungen der künstlichen Intelligenz ein schlechter Wert.

Fazit | Dieses Beispiel zeigt, dass die Fremdvergleichsanalyse unter Bezugnahme auf die Erkenntnisse künstlicher Intelligenz erheblich verbessert werden. Im Praxisbeispiel wurden die Parameter der Preissetzung (mithin die wesentlichen Bedingungen einer Geschäftsbeziehung aus steuerlicher Sicht) bei externen und konzerninternen Geschäftsbeziehungen analysiert.

Sollten bei grundsätzlich vergleichbaren Geschäftsbeziehungen systematische Unterschiede zwischen den Bedingungen der Preissetzung in Bezug auf verschiedene Vergleichbarkeitsfaktoren existieren, so würden die vorgestellten Methoden der künstlichen Intelligenz eine hohe „Accuracy“ aufweisen und es wäre eine eindeutige Unterscheidung zwischen internen und externen Transaktionen möglich. Im Falle einer hohen Accuracy (z.B. 95%) könnten erste Erkenntnisse dahingehend gefunden werden, dass a) die gewählten Vergleichstransaktionen ungeeignet waren (weitergehende Analyse wären dann erforderlich) oder b) systematisch andere Bedingungen den externen als den konzerninternen Geschäftsbeziehungen zugrunde gelegt wurden.

Im Umkehrschluss lässt sich eine sehr geringe „Accuracy“ – wie in dem Beispielsfall von rund 75% – dahingehend interpretieren, dass grundsätzlich keine systematischen Unterschiede in den zugrunde liegenden Bedingungen bei externen und konzerninternen Geschäftsbeziehungen existieren.

Zusammenfassend kann festgehalten werden, dass künstliche neuronale Netze und Random Forests bereits in der aktuellen Fremdvergleichsanalyse wertvolle Dienste erweisen und für sich alleine oder in Kombination mit den üblichen Methoden der Fremdvergleichsanalyse (z.B. Benchmarkstudien) die Qualität des Fremdvergleichs signifikant verbessern können.