コンテスト終了から 8 秒後の AC で泣いた。でも、分割統治 FFT が自力で書けてよかった。想定解法は FPS だった。

問題へのリンク

問題概要

次の問題がある。

$1, 2, \dots, N$ の順列 $P_{1}, P_{2}, \dots, P_{N}$ と $Q_{1}, Q_{2}, \dots, Q_{N}$ が与えられる。

これらをもとに次のように、頂点数 $N$ 、辺数 $N$ の有向グラフを作る。

頂点 $i$ から頂点 $P_{i}$ へと、重み $Q_{i}$ の有向辺を張る

このグラフから何本かの辺を削除することで閉路を含まないようにする。削除する辺の最小コストを求めよ。

この問いに対して、Alice と Bob は次のように考えた。

Alice： $i = 1, 2, \dots, N$ の順に、辺 $(i, P_{i})$ がもし閉路に含まれるならば削除するという Greedy 解法
Bob： $i = N, N-1, \dots, 1$ の順に、辺 $(i, P_{i})$ がもし閉路に含まれるならば削除するという Greedy 解法

いずれも誤答である。

上記の問題の入力として考えられる $(N!)^{2}$ 通りの入力のうち、Alice と Bob がともに誤答を返すものが何通りあるか、998244353 で割ったあまりを求めよ。

制約

$1 \le N \le 2 \times 10^{5}$

考えたこと

順列は巡回群の直積で書けるという話を使う。具体的には、問題のグラフは「サイクルの直積」となる。なお、このグラフのことを順列グラフと呼ぶことにする。

まず、包除原理から、次の方針で考えることにした。

$(N!)^{2}$
$- (\mathrm{Alice} が \mathrm{AC} する入力の個数) \times 2$
$+ (\mathrm{Alice} と \mathrm{Bob} がともに \mathrm{AC} する入力の個数)$

を求める。

Alice と Bob がともに AC する入力の個数は、各サイクルのサイズが 1 (すべて自己ループ) である場合に限られるので、 $N!$ 個と自明に求められる。

よって残る問題は、Alice が AC する入力の個数を求めることだ。

サイクルのサイズで DP を組む

Alice が AC する入力の個数を求めるために、次の DP を考えた。

$f(x)$ ← 頂点番号が $1, 2, \dots, x$ 、各辺の重みが $1, 2, \dots, x$ である順列グラフであって、各サイクルにおいて頂点番号が最小である頂点から出ている辺の重みが最小であるようなものの個数

このとき、最後の要素 $x$ を含むサイクルを除外したときのサイズ $y$ で場合分けすることで、DP 更新式が作れる。

最後の要素 $x$ を含むサイクルに含まれる頂点の選び方： ${}_{x-1}\mathrm{C}_{y}$ 通り
そのサイクルの頂点の並べ方： $(x-y-1)!$ 通り (数珠順列)
そのサイクルの各辺の重みの選び方： $\displaystyle \frac{{}_{x}\mathrm{P}_{x-y}}{x-y}$

であるから、

$\displaystyle f(x) = \sum_{y=0}^{x-1} f(y) \frac{x!(x-1)!}{(y!)^{2}(x-y)}$

簡単のため $\displaystyle g(x) = \frac{f(x)}{x!(x-1)!}$ ( $(-1)! = 1$ とする) とおいて変形すると、

$\displaystyle g(x) = \sum_{y=0}^{x-1} \frac{g(y)}{\max(y, 1)(x-y)}$

この時点で $O(N^{2})$ の計算量の解法にはなった。

分割統治 FFT で高速化

右辺は畳み込みの式になっている。具体的には

$\displaystyle p(t) = \frac{g(t)}{\max(t, 1)}$
$\displaystyle q(t) = \frac{1}{t}$

とすると、

$\displaystyle g(x) = \sum_{y=0}^{x-1} p(y)q(x-y)$

となっている。よって、分割統治 FFT によって、 $O(N (\log N)^{2})$ の計算量となる。分割統治 FFT の概要については、AtCoder ABC 213 H - Stroll の解説に詳しい。

コード

#include <bits/stdc++.h>
using namespace std;

// modint
template<int MOD> struct Fp {
    // inner value
    long long val;
    
    // constructor
    constexpr Fp() noexcept : val(0) { }
    constexpr Fp(long long v) noexcept : val(v % MOD) {
        if (val < 0) val += MOD;
    }
    constexpr long long get() const noexcept { return val; }
    constexpr int get_mod() const noexcept { return MOD; }
    
    // arithmetic operators
    constexpr Fp operator - () const noexcept {
        return val ? MOD - val : 0;
    }
    constexpr Fp operator + (const Fp &r) const noexcept { return Fp(*this) += r; }
    constexpr Fp operator - (const Fp &r) const noexcept { return Fp(*this) -= r; }
    constexpr Fp operator * (const Fp &r) const noexcept { return Fp(*this) *= r; }
    constexpr Fp operator / (const Fp &r) const noexcept { return Fp(*this) /= r; }
    constexpr Fp& operator += (const Fp &r) noexcept {
        val += r.val;
        if (val >= MOD) val -= MOD;
        return *this;
    }
    constexpr Fp& operator -= (const Fp &r) noexcept {
        val -= r.val;
        if (val < 0) val += MOD;
        return *this;
    }
    constexpr Fp& operator *= (const Fp &r) noexcept {
        val = val * r.val % MOD;
        return *this;
    }
    constexpr Fp& operator /= (const Fp &r) noexcept {
        long long a = r.val, b = MOD, u = 1, v = 0;
        while (b) {
            long long t = a / b;
            a -= t * b, swap(a, b);
            u -= t * v, swap(u, v);
        }
        val = val * u % MOD;
        if (val < 0) val += MOD;
        return *this;
    }
    constexpr Fp pow(long long n) const noexcept {
        Fp res(1), mul(*this);
        while (n > 0) {
            if (n & 1) res *= mul;
            mul *= mul;
            n >>= 1;
        }
        return res;
    }
    constexpr Fp inv() const noexcept {
        Fp res(1), div(*this);
        return res / div;
    }

    // other operators
    constexpr bool operator == (const Fp &r) const noexcept {
        return this->val == r.val;
    }
    constexpr bool operator != (const Fp &r) const noexcept {
        return this->val != r.val;
    }
    friend constexpr istream& operator >> (istream &is, Fp<MOD> &x) noexcept {
        is >> x.val;
        x.val %= MOD;
        if (x.val < 0) x.val += MOD;
        return is;
    }
    friend constexpr ostream& operator << (ostream &os, const Fp<MOD> &x) noexcept {
        return os << x.val;
    }
    friend constexpr Fp<MOD> modpow(const Fp<MOD> &r, long long n) noexcept {
        return r.pow(n);
    }
    friend constexpr Fp<MOD> modinv(const Fp<MOD> &r) noexcept {
        return r.inv();
    }
};

// Binomial coefficient
template<class T> struct BiCoef {
    vector<T> fact_, inv_, finv_;
    constexpr BiCoef() {}
    constexpr BiCoef(int n) noexcept : fact_(n, 1), inv_(n, 1), finv_(n, 1) {
        init(n);
    }
    constexpr void init(int n) noexcept {
        fact_.assign(n, 1), inv_.assign(n, 1), finv_.assign(n, 1);
        int MOD = fact_[0].get_mod();
        for(int i = 2; i < n; i++){
            fact_[i] = fact_[i-1] * i;
            inv_[i] = -inv_[MOD%i] * (MOD/i);
            finv_[i] = finv_[i-1] * inv_[i];
        }
    }
    constexpr T com(int n, int k) const noexcept {
        if (n < k || n < 0 || k < 0) return 0;
        return fact_[n] * finv_[k] * finv_[n-k];
    }
    constexpr T fact(int n) const noexcept {
        if (n < 0) return 0;
        return fact_[n];
    }
    constexpr T inv(int n) const noexcept {
        if (n < 0) return 0;
        return inv_[n];
    }
    constexpr T finv(int n) const noexcept {
        if (n < 0) return 0;
        return finv_[n];
    }
};

// NTT
namespace NTT {
    long long modpow(long long a, long long n, int mod) {
        long long res = 1;
        while (n > 0) {
            if (n & 1) res = res * a % mod;
            a = a * a % mod;
            n >>= 1;
        }
        return res;
    }

    long long modinv(long long a, int mod) {
        long long b = mod, u = 1, v = 0;
        while (b) {
            long long t = a / b;
            a -= t * b, swap(a, b);
            u -= t * v, swap(u, v);
        }
        u %= mod;
        if (u < 0) u += mod;
        return u;
    }

    int calc_primitive_root(int mod) {
        if (mod == 2) return 1;
        if (mod == 167772161) return 3;
        if (mod == 469762049) return 3;
        if (mod == 754974721) return 11;
        if (mod == 998244353) return 3;
        int divs[20] = {};
        divs[0] = 2;
        int cnt = 1;
        long long x = (mod - 1) / 2;
        while (x % 2 == 0) x /= 2;
        for (long long i = 3; i * i <= x; i += 2) {
            if (x % i == 0) {
                divs[cnt++] = i;
                while (x % i == 0) x /= i;
            }
        }
        if (x > 1) divs[cnt++] = x;
        for (int g = 2;; g++) {
            bool ok = true;
            for (int i = 0; i < cnt; i++) {
                if (modpow(g, (mod - 1) / divs[i], mod) == 1) {
                    ok = false;
                    break;
                }
            }
            if (ok) return g;
        }
    }

    int get_fft_size(int N, int M) {
        int size_a = 1, size_b = 1;
        while (size_a < N) size_a <<= 1;
        while (size_b < M) size_b <<= 1;
        return max(size_a, size_b) << 1;
    }

    // number-theoretic transform
    template<class mint> void trans(vector<mint> &v, bool inv = false) {
        if (v.empty()) return;
        int N = (int)v.size();
        int MOD = v[0].get_mod();
        int PR = calc_primitive_root(MOD);
        static bool first = true;
        static vector<long long> vbw(30), vibw(30);
        if (first) {
            first = false;
            for (int k = 0; k < 30; ++k) {
                vbw[k] = modpow(PR, (MOD - 1) >> (k + 1), MOD);
                vibw[k] = modinv(vbw[k], MOD);
            }
        }
        for (int i = 0, j = 1; j < N - 1; j++) {
            for (int k = N >> 1; k > (i ^= k); k >>= 1);
            if (i > j) swap(v[i], v[j]);
        }
        for (int k = 0, t = 2; t <= N; ++k, t <<= 1) {
            long long bw = vbw[k];
            if (inv) bw = vibw[k];
            for (int i = 0; i < N; i += t) {
                mint w = 1;
                for (int j = 0; j < t/2; ++j) {
                    int j1 = i + j, j2 = i + j + t/2;
                    mint c1 = v[j1], c2 = v[j2] * w;
                    v[j1] = c1 + c2;
                    v[j2] = c1 - c2;
                    w *= bw;
                }
            }
        }
        if (inv) {
            long long invN = modinv(N, MOD);
            for (int i = 0; i < N; ++i) v[i] = v[i] * invN;
        }
    }

    // for garner
    static constexpr int MOD0 = 754974721;
    static constexpr int MOD1 = 167772161;
    static constexpr int MOD2 = 469762049;
    using mint0 = Fp<MOD0>;
    using mint1 = Fp<MOD1>;
    using mint2 = Fp<MOD2>;
    static const mint1 imod0 = 95869806; // modinv(MOD0, MOD1);
    static const mint2 imod1 = 104391568; // modinv(MOD1, MOD2);
    static const mint2 imod01 = 187290749; // imod1 / MOD0;

    // small case (T = mint, long long)
    template<class T> vector<T> naive_mul
    (const vector<T> &A, const vector<T> &B) {
        if (A.empty() || B.empty()) return {};
        int N = (int)A.size(), M = (int)B.size();
        vector<T> res(N + M - 1);
        for (int i = 0; i < N; ++i)
            for (int j = 0; j < M; ++j)
                res[i + j] += A[i] * B[j];
        return res;
    }

    // mint
    template<class mint> vector<mint> mul
    (const vector<mint> &A, const vector<mint> &B) {
        if (A.empty() || B.empty()) return {};
        int N = (int)A.size(), M = (int)B.size();
        if (min(N, M) < 30) return naive_mul(A, B);
        int MOD = A[0].get_mod();
        int size_fft = get_fft_size(N, M);
        if (MOD == 998244353) {
            vector<mint> a(size_fft), b(size_fft), c(size_fft);
            for (int i = 0; i < N; ++i) a[i] = A[i];
            for (int i = 0; i < M; ++i) b[i] = B[i];
            trans(a), trans(b);
            vector<mint> res(size_fft);
            for (int i = 0; i < size_fft; ++i) res[i] = a[i] * b[i];
            trans(res, true);
            res.resize(N + M - 1);
            return res;
        }
        vector<mint0> a0(size_fft, 0), b0(size_fft, 0), c0(size_fft, 0);
        vector<mint1> a1(size_fft, 0), b1(size_fft, 0), c1(size_fft, 0);
        vector<mint2> a2(size_fft, 0), b2(size_fft, 0), c2(size_fft, 0);
        for (int i = 0; i < N; ++i)
            a0[i] = A[i].val, a1[i] = A[i].val, a2[i] = A[i].val;
        for (int i = 0; i < M; ++i)
            b0[i] = B[i].val, b1[i] = B[i].val, b2[i] = B[i].val;
        trans(a0), trans(a1), trans(a2), trans(b0), trans(b1), trans(b2);
        for (int i = 0; i < size_fft; ++i) {
            c0[i] = a0[i] * b0[i];
            c1[i] = a1[i] * b1[i];
            c2[i] = a2[i] * b2[i];
        }
        trans(c0, true), trans(c1, true), trans(c2, true);
        static const mint mod0 = MOD0, mod01 = mod0 * MOD1;
        vector<mint> res(N + M - 1);
        for (int i = 0; i < N + M - 1; ++i) {
            int y0 = c0[i].val;
            int y1 = (imod0 * (c1[i] - y0)).val;
            int y2 = (imod01 * (c2[i] - y0) - imod1 * y1).val;
            res[i] = mod01 * y2 + mod0 * y1 + y0;
        }
        return res;
    }
};



int main() {
    const int MOD = 998244353;
    using mint = Fp<MOD>;
    
    int N;
    cin >> N;
    BiCoef<mint> bc(N + 10);
    
    vector<mint> dp(N+1, 0);
    dp[0] = 1;
    auto rec = [&](auto self, int left, int right) -> void {
        if (right - left <= 1) return;
        int mid = (left + right) / 2;
        
        // complete [left, mid)
        self(self, left, mid);
        
        // update: [left, mid) -> [mid, right)
        vector<mint> L(mid - left, 0), R(right - left, 0);
        for (int t = left; t < mid; ++t) L[t - left] = dp[t] / max(t, 1);
        for (int t = 0; t < right - left; ++t) R[t] = mint(1) / max(t, 1);
        auto seki = NTT::mul(L, R);
        for (int t = mid; t < right; ++t) dp[t] += seki[t - left];
        
        // complete [right, mid))
        self(self, mid, right);
    };
    rec(rec, 0, N+1);
        
    mint alice = dp[N] * bc.fact(N) * bc.fact(N-1);
    mint res = bc.fact(N) * bc.fact(N) - alice * 2 + bc.fact(N);
    cout << res << endl;
}

けんちょんの競プロ精進記録

競プロの精進記録や小ネタを書いていきます

AtCoder ABC 318 Ex - Count Strong Test Cases (4D, 橙色, 650 点)

問題概要

制約

考えたこと

サイクルのサイズで DP を組む

分割統治 FFT で高速化

コード