Kurzfassung
Das bevorstehenden “High-Luminosity” Upgrade des LHC erfordert eine entsprechende Steigerung der simulierten Datenmenge. Aufgrund der hohen Rechenkosten der Detektorsimulation könnte diese Nachfrage jedoch die Rechenressourcen zu übersteigen. Daher müssen schnellere, weniger rechenintensive Alternativen zur klassischen Detektorsimulation mit Markov Chain Monte Carlo (MCMC) entwickelt werden. So genannte “Surrogates”, die Methoden der generativen künstlichen Intelligenz anwenden, sind ein möglicher Kandidat für die Beschleunigung der Simulation. Sie werden bereits im ATLAS-Experiment zur Simulation genutzt. Die Qualität der Daten,
welche von einem Surrogate erstellt werden, ist jedoch von Natur aus durch die Statistik seiner Trainingsdaten begrenzt.
Wir zeigen, dass die Menge der Trainingsdaten eine Obergrenze für die Präzision globaler Eigenschaften von aus den Daten konstruierten Observablen darstellt. Mittelwerte oder Varianzen sind ein Beispiel solcher Eigenschaften. Die Beschränktheit des Funktionsraumes Neuronaler Netzwerke ermöglicht es jedoch, die Trainingsdaten bei der Analyse kleinerer Abschnitte der Datenverteilung zu übertreffen. Die durch die Trainingsdaten definierte Grenze kann auch aus den Unsicherheiten geschätzt werden, welche Bayessche Neuronale Netzwerke vorhersagen. Um eine wahrheitsgetreue Schätzung der Grenze zu gewährleisten, muss die Unsicherheitsvorhersage gut kalibriert sein. Wir zeigen eine Möglichkeit, Unsicherheiten für Bayessche generative Neuronale Netze zu kalibrieren. Wir demonstrieren ebenfalls, dass die weit verbreitete “Variational Inference”-Methode schwer zu kalibrieren ist.
Wir entwickeln daher unsere eigene Methode basierend auf “stochastic gradient MCMC”. Diese Methode, AdamMCMC, ist einfach anzuwenden und ersetzt die Methoden der stochastische Optimierung, welche üblicherweise im maschinellen Lernen eingesetzt werden. Im Gegensatz zu “Variational Inference” kann die Varianz der Unsicherheitsvorhersage anhand eines einzigen Parameters e!ektiv angepasst werden. Darüber hinaus zeigt die Methode die Anwendung des Netzes auf unbekannte Daten an, in dem sie hohe Unsicherheiten vorhersagt und liefert allgemein zuverlässigere Vorhersagen.
“Classifier Surrogates” sind eine mögliche Anwendung des generativen maschinellen Lernens, bei der zuverlässige Vorhersage der Unsicherheiten entscheidend ist. Diese Klasse von Modellen sagt das Verhalten von “Jet-Klassifizierungsmodellen” voraus, die direkt mit Detektordaten arbeiten. Für diese Vorhersage verwenden diese besser zugänglichen Daten anstelle der Detektordaten. Experimentelle Analysen, die solche Klassifizierungsmodelle verwenden, können mit Hilfe eines “Classifier Surrogates” neu interpretiert werden, ohne dass eine weitere Simulation des Detektors notwendig ist. Dadurch sinkt der Rechenaufwand. Die Analyse kann auch von Forscher weiter genutzt werden, die keinen Zugriff! auf die Detektorspezifikationen haben. Damit
solche ein Modell zuverlässig ist, müssen die Unsicherheiten abgeschätzt werden, welche durch die Modellieriung eingeführt wurden. Darüber hinaus muss vor der Anwendung auf Daten, welche für Klassifizierungsmodell und Surrogate neu sind, gewarnt werden. Wir zeigen, dass “Continuous Normalizing Flows” in Kombination mit AdamMCMC diesen Anforderungen genügen. Ein solcher “Classifier Surrogates” stellt einen großen Mehrwert für die Forschungsgemeinschaft dar und könnte für jeden Jet-Tagger, der bei ATLAS oder CMS eingesetzt wird, implementiert werden.
The upcoming high-luminosity upgrade of the LHC requires an increase in simulated data. Due to the high computational cost of detector simulation, this demand threatens to surpass the computational resources. As a consequence, it is important to develop faster, less compute intensive alternatives to classical detector simulation with Markov chain Monte Carlo (MCMC). Generative Deep Learning surrogates are one possible candidate for speeding up the simulation and are already applied in ATLAS fast simulation tools. However, the quality of the surrogate data is intrinsically limited by the training statistics. We demonstrate that the amount of training data poses as an upper limit on the precision of global properties of observables constructed from the data. Such global properties include for example means or variances. Nevertheless, the inductive bias of the Neural Network fit allows to surpass the training statistics when analyzing smaller regions of the data space. We show that the relaxed limit, which still depends on the training data, can be estimated from uncertainties predicted by Bayesian Neural Networks. To achieve a truthful estimate, the uncertainty prediction needs to be well calibrated. We show one way to calibrate uncertainties for generative Bayesian Neural Networks and find that the common variational inference method is hard to calibrate. We therefore develop a new method based on stochastic gradient MCMC. This method is called AdamMCMC. It is easy to apply and replaces the stochastic optimization commonly employed in Deep Learning. In contrast to variational inference, the variance of the uncertainty prediction can be adapted effectively through variation of a single parameter. Diverse predictions indicate out-of-distribution application. Overall, we find that the stochastic gradient MCMC produces more reliable predictions than variational inference in multiple applications. Classifier Surrogates are one possible application of generative Machine Learning, where reliable uncertainties are crucial. This class of surrogates predicts the behavior of jet taggers working on detector data from more accessible data. Experimental analysis employing such taggers can be reinterpreted without the need for detector simulation. This cuts computational cost and enables sharing of the analysis outside the collaboration. However, the uncertainties introduced by the approximation need to be controlled and application to new data spaces needs to be prevented. We show that Continuous Normalizing Flows, in combination with AdamMCMC, can fulfill these requirements. Similar surrogates can be of high value for the community and could be implemented with every jet tagger employed at ATLAS or CMS.