ループアンローリングだかストリップマイニングだか

用語が正確かどうかはさておき、行列ベクトル積を手動最適化。

最適化方法 gcc [秒] dmd [秒]
ベース gemv1_c.c 0.51 gemv1_d.d 0.74
上+ストリップマイニング gemv2_c.c 0.42 gemv2_d.d 0.76
上+ループ展開 gemv3_c.c 0.42 gemv3_d.d 0.64
上+一時変数を別々に gemv4_c.c 0.42 gemv4_d.d 0.47

gcc さんが最適化してくれるような所でも dmd さんは最適化してくれなかったりするみたいですが、mixin を使うなりして頑張れってことでしょうか。