gcc/testsuite/gcc.dg/vmx/fft.c - gcc - Git at Google

 /* { dg-do compile } */
 #include <altivec.h>

 inline void
 transpose4x4(vector float *matrix)
 {
   vector float v0, v1, v2, v3;

   v0 = vec_mergeh(matrix[0], matrix[2]);
   v1 = vec_mergel(matrix[0], matrix[2]);
   v2 = vec_mergeh(matrix[1], matrix[3]);
   v3 = vec_mergel(matrix[1], matrix[3]);

   matrix[0] = vec_mergeh(v0, v2);
   matrix[1] = vec_mergel(v0, v2);
   matrix[2] = vec_mergeh(v1, v3);
   matrix[3] = vec_mergel(v1, v3);
 }

 void
 vec_ifft64(vector float *x0, vector float *x1)
 {
   int i;
   vector float real[4], imag[4];
   vector float c0r, c1r, c2r, c3r, c0i, c1i, c2i, c3i;
   vector float d0r, d1r, d2r, d3r, d0i, d1i, d2i, d3i;

   /*
    *  N=64
    *
    *  Stage 1: t=1 => k = 0, j = 0..15
    *  ================================
    *  for j = 0:15
    *    c0 = x0(j+0*16);
    *    c1 = x0(j+1*16);
    *    c2 = x0(j+2*16);
    *    c3 = x0(j+3*16);
    *
    *    d0 = c0 + c2;
    *    d1 = c0 - c2;
    *    d2 = c1 + c3;
    *    d3 = i*(c1 - c3);
    *
    *    x1(4j+0) = d0 + d2;
    *    x1(4j+1) = d1 + d3;
    *    x1(4j+2) = d0 - d2;
    *    x1(4j+3) = d1 - d3;
    *  end
    ******************************************************/

   for (i=0; i < 4; i++)
     {
       c0r = x0[i];
       c1r = x0[i+4];
       c2r = x0[i+8];
       c3r = x0[i+12];

       c0i = x0[i+16];
       c1i = x0[i+20];
       c2i = x0[i+24];
       c3i = x0[i+28];

       d0r = vec_add(c0r, c2r);
       d1r = vec_sub(c0r, c2r);
       d2r = vec_add(c1r, c3r);
       d3r = vec_sub(c3i, c1i);

       d0i = vec_add(c0i, c2i);
       d1i = vec_sub(c0i, c2i);
       d2i = vec_add(c1i, c3i);
       d3i = vec_sub(c1r, c3r);

       /* Calculate real{x1} */
       real[0] = vec_add(d0r, d2r);
       real[1] = vec_add(d1r, d3r);
       real[2] = vec_sub(d0r, d2r);
       real[3] = vec_sub(d1r, d3r);

       transpose4x4(real);

       /* Calculate imag{x1} */
       imag[0] = vec_add(d0i, d2i);
       imag[1] = vec_add(d1i, d3i);
       imag[2] = vec_sub(d0i, d2i);
       imag[3] = vec_sub(d1i, d3i);

       transpose4x4(imag);

       x1[4*i]   = real[0];
       x1[4*i+1] = real[1];
       x1[4*i+2] = real[2];
       x1[4*i+3] = real[3];

       x1[4*i+16] = imag[0];
       x1[4*i+17] = imag[1];
       x1[4*i+18] = imag[2];
       x1[4*i+19] = imag[3];
     }
 }
	/* { dg-do compile } */
	#include <altivec.h>

	inline void
	transpose4x4(vector float *matrix)
	{
	vector float v0, v1, v2, v3;

	v0 = vec_mergeh(matrix[0], matrix[2]);
	v1 = vec_mergel(matrix[0], matrix[2]);
	v2 = vec_mergeh(matrix[1], matrix[3]);
	v3 = vec_mergel(matrix[1], matrix[3]);

	matrix[0] = vec_mergeh(v0, v2);
	matrix[1] = vec_mergel(v0, v2);
	matrix[2] = vec_mergeh(v1, v3);
	matrix[3] = vec_mergel(v1, v3);
	}

	void
	vec_ifft64(vector float x0, vector float x1)
	{
	int i;
	vector float real[4], imag[4];
	vector float c0r, c1r, c2r, c3r, c0i, c1i, c2i, c3i;
	vector float d0r, d1r, d2r, d3r, d0i, d1i, d2i, d3i;

	/*
	* N=64
	*
	* Stage 1: t=1 => k = 0, j = 0..15
	* ================================
	* for j = 0:15
	* c0 = x0(j+0*16);
	* c1 = x0(j+1*16);
	* c2 = x0(j+2*16);
	* c3 = x0(j+3*16);
	*
	* d0 = c0 + c2;
	* d1 = c0 - c2;
	* d2 = c1 + c3;
	* d3 = i*(c1 - c3);
	*
	* x1(4j+0) = d0 + d2;
	* x1(4j+1) = d1 + d3;
	* x1(4j+2) = d0 - d2;
	* x1(4j+3) = d1 - d3;
	* end
	******************************************************/

	for (i=0; i < 4; i++)
	{
	c0r = x0[i];
	c1r = x0[i+4];
	c2r = x0[i+8];
	c3r = x0[i+12];

	c0i = x0[i+16];
	c1i = x0[i+20];
	c2i = x0[i+24];
	c3i = x0[i+28];

	d0r = vec_add(c0r, c2r);
	d1r = vec_sub(c0r, c2r);
	d2r = vec_add(c1r, c3r);
	d3r = vec_sub(c3i, c1i);

	d0i = vec_add(c0i, c2i);
	d1i = vec_sub(c0i, c2i);
	d2i = vec_add(c1i, c3i);
	d3i = vec_sub(c1r, c3r);

	/* Calculate real{x1} */
	real[0] = vec_add(d0r, d2r);
	real[1] = vec_add(d1r, d3r);
	real[2] = vec_sub(d0r, d2r);
	real[3] = vec_sub(d1r, d3r);

	transpose4x4(real);

	/* Calculate imag{x1} */
	imag[0] = vec_add(d0i, d2i);
	imag[1] = vec_add(d1i, d3i);
	imag[2] = vec_sub(d0i, d2i);
	imag[3] = vec_sub(d1i, d3i);

	transpose4x4(imag);

	x1[4*i] = real[0];
	x1[4*i+1] = real[1];
	x1[4*i+2] = real[2];
	x1[4*i+3] = real[3];

	x1[4*i+16] = imag[0];
	x1[4*i+17] = imag[1];
	x1[4*i+18] = imag[2];
	x1[4*i+19] = imag[3];
	}
	}