Компилятор

реклама
Оптимизирующий компилятор
Основные характеристики приложения, влияющие на
его производительность:
•
•
•
•
•
•
Эффективность вычислений.
Эффективность работы с памятью.
Правильное предсказание переходов.
Эффективность использования векторных инструкций.
Эффективность параллелизации.
Уровень инструкционного параллелилизма.
Место и роль компилятора
Компилятор — транслятор, который осуществляет перевод всей исходной
программы в эквивалентную ей результирующую программу на языке машинных
команд или на языке ассемблера.
Основная задача оптимизирующего компилятора – получение кода максимально
эффективного для используемого вычислительного комплекса.
•
•
•
•
•
•
С точки зрения разработчика программа должна быть:
Легко читаемой и модифицируемой.
Легко отлаживаемой.
Быстро исполняемой.
Разработчику необходима
надежная унифицированная среда разработки;
возможность варьировать уровни отладки и быстродействия;
возможность получать высокоэффективный код для различных операционных
систем и микропроцессорных архитектур.
Компилятор должен удовлетворить эти требования.
10/17/10
Оптимизирующий компилятор
Это программный комплекс, работа которого варьируется в зависимости от
требований к результирующему коду.
•
•
•
Возникают следующие проблемы:
Сложность доказательства допустимости тех или иных оптимизаций.
Сложность расчет выгодности оптимизаций.
Отсутствие во время компиляции представления о типичных входных данных.
Для достижения хороших результатов требуется тесное сотрудничество с
разработчиком.
•
•
•
•
•
•
Чтобы использовать умело средства компилятора, программист должен:
иметь представления об архитектуре, на которой будет использоваться его
программа;
ознакомиться с настройками компилятора;
ознакомиться с основными техниками улучшения производительности, которые
использует компилятор;
ознакомиться с основными проблемами, вызывающими замедление работы
программы;
знать примерные данные, с которыми будет работать программа;
уметь пользоваться инструментами для анализа производительности программы.
Компиляторы Intel
С/C++ и Fortran для
операционных систем Windows,
Linux и Mac OS
Для Windows компилятор может
быть интегрирован в Microsoft Visual
Studio
Главной целью корпорации
является высокая
производительность компиляторов
и совместимость с Microsoft Visual
Studio на Windows и с gcc на Linux и
Mac OS.
www.intel.com/software/products
10/17/10
Исходные файлы
FE (C++/C или Fortran)
Архитектура
компилятора
Внутреннее представление
Временный
файл или
Obj с ВП
Профилировщик
Скалярные оптимизации
IP/IPO оптимизации
HPO
Генератор кода
Скалярные оптимизации
HPO
Генератор кода
Обьектные файлы
Исполняемый файл
10/17/10
Библиотека
Front End
Синтаксический анализ (parsing) — это процесс анализа входной
последовательности символов с целью разбора грамматической структуры,
обычно в соответствии с заданной формальной грамматикой.
При этом исходный текст преобразуется в структуру данных, обычно — в
дерево, которое отражает синтаксическую структуру входной
последовательности и хорошо подходит для дальнейшей обработки.
Обычно синтаксический анализ делится на два уровня:
Лексический анализ — входной поток символов разбивается на линейную
последовательность токенов — «слов» языка (напр. целые числа,
идентификаторы, строковые константы и т. д.);
Семантический анализ — из токенов выделяются «предложения» языка
согласно грамматическим правилам, и создается дерево разбора.
На выходе FE мы получаем взаимосвязанные таблицы, которые называются
внутренним представлением программы. Обычной практикой является
использование общего внутреннего представления для разных языков высокого
уровня.
10/17/10
Внутреннее представление. (Дерево разбора)
void sub(int *a,int k,int r)
{
int i;
for(i=0;i<k;i++)
a[i]=r;
}
(Statements)
STMT_ENTRY
STMT_ASSIGN
STMT_WHILE_DO
STMT_RETURN
Процесс лексического разбора
(parsing) – это процесс
создания некоторого
внутреннего представления
компилятора.
Внутреннее представление
компилятора - это различные
структурированные данные,
связанные друг с другом.
Базовой единицей является
лист утверждений (statements)
Утверждения используются для
отображения присваиваний, команд
управления потоком (таких как
IF,GOTO,CALL,RETURN), Phi-statements
для SSA, вызовов функций и т.д.
10/17/10
Внутреннее представление. (Дерево разбора)
Утверждения (statements) обычно представлены в виде списка и
могут быть связаны двумя способами:
1) Лексически.
Каждое утверждение имеет предшественника (predecessor) и
потомка (successor).
2) Графом потока управления.
struct STMT {
common_members:
int type;
STMT * pred;
STMT *succ;
BBLOCK bblock;
…}
Union {
stmt_1_members;
stmt_2_members;
… }
}
Макросы помогают получать доступ к
различным полям данной структуры.
Оптимизации часто базируются на
полном проходе через весь лист
утверждений. Например:
FOR_ALL_ENTRY_STMT(entry,stmt) {
if(STMT_type(stmt) == STMT_ASSIGN {
//обработка присваиваний
}
}
10/17/10
Выражения
a = b + c;
STMT_ASSIGN
lval
Выражения (expressions)
представляют собой дерево
выражений.
rval
EXPR_VAR
EXPR_ADD
‘a’
EXPR_VAR
EXPR_VAR
‘b’
‘c’
Граничные выражения, то есть те, которые находятся на конце дерева
выражений, могут быть: переменной (ссылка на область памяти), значением
(константа).
10/17/10
Переменная и ее свойства
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
имя
информация о классе (для членов класса)
размер в памяти
выравнивание (alignment)
тип (например, ссылка на элемент из таблицы типов)
размер (для массива)
указатель на описание структуры массива
указатель на родительскую структуру (для полей структуры)
область хранения (локальная, статическая, глобальная)
область видимости
Атрибуты:
является ли элементом объединения
брался ли адрес этой переменной
тип доступа (для членов класса)
специальная конструкция Fortran
имеет специальные атрибуты для Fortran
является аргументом
переменная отмечена как совместно используемая в OPENMP директиве
Многие оптимизации и компоненты компилятора для ускорения работы
заводят специальные ссылки и атрибуты используемые только ими.
10/17/10
Функции и их свойства
•
•
•
•
•
•
•
•
•
•
•
имя;
указатель на родительский класс;
выравнивание (alignment);
ссылки на тело функции;
Call convention (Для разных OS);
Intrinsic (библиотечная функция компилятора);
Область видимости.
Атрибуты:
функция не имеет «побочных эффектов»;
не возвращает значение;
обязательна для подстановки (inline);
конструктор класса и т.д.
10/17/10
Граф потоков управления (Control Flow Graph) представление всех путей, которые могут быть
пройдены в процессе выполнения программы.
Базовым узлом этого представления является
базовый блок (basic blocks). Это непрерывные части
кода без переходов и меток переходов. Метка перехода
начинает такой блок, переход его завершает.
Некоторые определения:
Блок входа (entry block) – это блок, через который все
потоки управления входят в граф.
Блок выхода (exit block) – блок, через который все
потоки управления покидают граф.
10/17/10
Граф потока управления
Entry
L12:
Sum=0;
if (i<11)
i=1;
printf(..)
sum =
sum+i;
i = i+1;
Goto L12
Return
int main() {
int sum=0;
int i=1;
while (i<11) {
sum=sum+i;
i = i+1;
}
printf(“%d\n”,sum);
}
10/17/10
Построение
осуществляется в два прохода по списку утверждений:
1) Находим базовые блоки
• Первое утверждение начинает базовый блок.
• Каждое утверждение, которое является целью
перехода, начинает базовый блок.
• Каждое утверждение следующее за переходом
начинает базовый блок.
2) Проходим повторно и связываем базовые блоки
связями или гранями (edge).
Struct BBLOCK {
STMT first_stmt
STMT last_stmt
BBLOCK_LIST pred_list
BBLOCK_LIST succ_list
…
}
10/17/10
Обработка графа потока управления
После определения базовых блоков появляется возможность обходить все
утверждения программы с использованием CFG.
Например:
FOR_ALL_ENTRY_BBLOCK(entry,bblock) {
FOR_ALL_BBLOCK_STMT(bblock,stmt) {
// обрабатываются утверждения из одного базового блока
IF(STMT_type(stmt) == STMT_ASSIGN) {
EXPR lopnd;
lopnd=STMT_lval(stmt);
if(EXPR_type(lopnd) == EXPR_VAR) {
// Обработать присваивание переменной
}
}
}
}
10/17/10
Исходные файлы
FE (C++/C или Fortran)
Архитектура
компилятора
Внутреннее представление
Временный
файл или
Obj с ВП
Профилировщик
Скалярные оптимизации
IP/IPO оптимизации
HPO
Генератор кода
Скалярные оптимизации
HPO
Генератор кода
Обьектные файлы
Исполняемый файл
10/17/10
Библиотека
Скалярные оптимизации
Свертка констант, протяжка констант, протяжка копий (Constant folding, constant
propagation, copy propagation)
Свертка констант - процесс вычисления констант во время компиляции.
Протяжка констант – подстановка величин известных констант в выражение
int x = 14;
int y = 7 - x / 2;
=> constant propagation =>
int x = 14;
int y = 7 – 14 / 2;
Протяжка копий – процесс замены переменных их значениями
y = x;
z=3+y
=> copy propagation =>
z=3+x
10/17/10
Скалярные оптимизации
Удаление повторных вычислений (Common
subexpression elimination) – поиск идентичных
подвыражений и сохранение результата вычисления во
временной переменной для последующего повторного
использования.
a = b * c + g;
d = b * c * d;
=> CSE =>
tmp = b * c;
a = tmp + g;
d = tmp * d;
10/17/10
Скалярные оптимизации
Удаление мертвого кода (Dead code elimination) это удаление кода, который не
изменяет выходных данных программы. К мертвому коду относится код, который
никогда не выполняется или изменяет только не влияющие на результат
переменные.
int foo() {
int a = 24;
int b = 25; /* Присвоение не влияющей на результат переменной */
int c;
c = a << 2;
return c;
b = 24; /* Недостижимый код */ }
Мертвый код может появится после многих оптимизаций компилятора, после
протяжки констант и копий, после прямой подстановки (inlining) и т.п.
10/17/10
Скалярные оптимизации
Удаление излишнего ветвления, протяжка условий
Удаляются блоки кода, которые не могут быть достижимы из-за цепочки условных
ветвлений.
if(x>0) {
…
if(x>0) {
a=x; }
} else {
a=-x; }
…
}
=>
if(x>0) {
…
a=x;
…
}
Также может возникнуть из-за скалярных оптимизаций или прямой подстановки.
10/17/10
Анализ потоков данных (Data Flow Analysis)
сбор информации о возможном наборе значений
переменных, вычисляемых в различных точках
программы.
Граф потока управления (CFG) используется для
определения тех частей программы, в которые может
быть передано некоторое значение, присвоенное
переменной.
Граф определения/использования (definition-use graph) –
это граф, который содержит дуги из каждой точки
определения переменной в программе к каждой точке ее
использования.
10/17/10
Построение
Построение цепочек def-use для базового блока тривиально. Каждое
определение переменной связано со всеми последующими ее использованиями.
Каждое последующее определение прекращает предыдущую цепочку и начинает
новую.
Для того, чтобы использовать этот локальный граф, с помощью CFG
вычисляются несколько множеств, которые характеризуют поведения блока:
Uses(b): Переменные, которые используются в блоке, но не имеют определений
внутри блока.
Defsout(b): Переменные, которые были определены в b и достигли конца блока.
Killed(b): Переменные, определения которых были отменены внутри блока
другими определениями.
Reaches(b): Переменные, определённые в других блоках, включая b, которые
могут достичь b.
10/17/10
Т.е. для понимания того, какие определения будут
использоваться внутри базового блока, важно знать
reaches(b).
Можно построить итерационный процесс, который
будет вычислять reaches(b) через перечисленные
множества предыдущих блоков.
Reaches(b) = U для всех предшественников (defsout(p) U
(reaches(p) ∩ ¬killed(p))
Проблема в том, что при наличии циклов, блок
reaches(b) может зависеть от reaches(b). Утверждается,
что многократно повторяя это вычисление в каждом
базовом блоке CFG, можно получить окончательное
решение.
10/17/10
Опираясь на построенное дерево, можно делать
многие оптимизации. Например, удалять мертвый код и
протягивать константы. Главная проблема такого
подхода - большое количество дуг в Def-Use графе и
большое время расчета этого дерева.
S1 X=
S2 X=
S3 X=
S4
S5 =X
S6 =X
Пример иллюстрирует эту проблему.
Определения в S1, S2, S3 проходят
через вершину S4. Поскольку каждое
определение достигает каждого
использования, то в данном частном
случае возникает 9 дуг. Для того, чтобы
решить эту проблему, была предложена
SSA форма.
S7 =X
10/17/10
SSA (Static single assignment form)
SSA форма предполагает уникальное имя для
каждого определения переменной и введение
специальных псевдо-присваиваний.
S2
S1
X1=
S3
X2=
X3=
X4=φ(X1,X2,X3)
S4
S5
S7
=X4
=X4
S6
=X4
10/17/10
SSA призвана избавить разработчиков от
необходимости строить сложные use/def цепочки для
локальных переменных. Сила SSA заключается в том,
что каждая переменная имеет только одно
определение внутри программы. Поэтому use/def
цепочка очевидна. SSA представление вводит
специальные Phi-функции в местах, в которых
возникает неопределенность, для создания новой
переменной. Это так называемые псевдоприсваивания.
При построении необходимо расставить Phi –
функции и породить новые уникальные переменные.
Новые переменные порождаются путем
добавления к имени переменной уникального
варианта.
Для того, чтобы правильно вставить Phi функции,
нужно рассмотреть некоторые понятия теории графов.
10/17/10
Доминатор – узел N - доминирует над узлом M, если все
пути к М идут через N.
Узел N непосредственный доминатор M, если он
последний доминатор на любом пути от входа до M.
1
2
3
4
5
77
6
9
10
11 8
11
Границей
доминирования
(Dominance frontier) узла x называется
множество всех
таких узлов w, что x
доминирует над
узлами, являющиеся
предками узла w, но
не является строгим
доминатором узла
w.
Другими словами,
это граница между
доминируемыми и
недоминируемыми
узлами.
Пример:
Dom[5] = {5,6,7,8}
DF[5] ={5,4,12,11}
12
10/17/10
В SSA форме каждое определение переменной должно доминировать
над использованием переменной.
•
Построение множества доминаторов для каждого базового блока.
Правило: Множество доминаторов для узла N есть пересечение
множества доминаторов всех его предшественников и сам узел (множество
доминаторов вершины содержит ее саму).
Строгий доминатор N, это доминатор !=N. Непосредственный доминатор
– это ближайший узел из множества доминаторов.
idom(N) – непосредственный доминатор базового блока N
children(N) – множество базовых блоков для N, которые он доминирует
2
3
4
5
6
10/17/10
Критерий границы доминирования
если блок N содержит определение переменной a, то
всякий узел на границе доминирования узла N требует
Phi функции для a. Каждая Phi функция - это тоже
определение, поэтому необходимо применять критерий
границы доминирования до тех пор, пока ни один блок
более не требует вставки Phi функции.
A_2=φ(A_1,A_3)
B=A
B=A_2
A=x
A_3=x
Вставка φ функции для вершины 5 из схемы на слайде 20.
10/17/10
2.) Введем 2 множества:
DFlocal[n]: множество потомков узла n, для которых n не является строгим доминатором (Этот
признак легко определить для узла n.)
DFup[n]: множество вершин в границе доминирования n, не доминируемыx непосредственным
доминатором n (нужно знать DF(n) чтобы построить это множество)
Тогда: DF [n] = DFlocal[n] U (Uc DFup[c]),
Uc – объединение по с из children [n] – узлы, непосредственным доминатором которых является
узел n.
Из этой формулы видно, что если узел не доминирует другие узлы (children[n] ={}) – вычисление
DF – тривиальная задача.
1
2
3
4
children[8]={}; DF[8]={5,12}; Idom[8]={5};
DFup[8]={5,12}
5
children[6]={}; Idom[6]={5} ; DFlocal[6] = {4,8};
DFup[6]={4} так как Idom[8]={5}
9
6
chilren[7] ={}; Idom[7]={5}; DFlocal[7]={8,11};
DFup[7]={11} так как Idom[8]={5}
7
10
8
11
DF[5]={}U(DFup[6]UDFup[7]UDFup[8])
DF[5]={}U{4}U{11}U{5,12}={4,5,12,11}
12
10/17/10
Алгоритм расчёта границы доминирования
computeDF(n) {
s <- {};
foreach(y from succ[n])
if(idom(y) !=n ) s U {y};
foreach(c from children[n]) {
computeDF(c);
foreach(w from DF(c))
if(!(n dom w)) s U {w};
}
DF[n]=s;
10/17/10
1
2
A=X (A from Def(3))
3
4
5
Необходима ли φ функция для A в узле 6?
6
Функция φ необходима, поскольку при обработке определения А
в узле 3 мы вставляем в узел 5 φ функцию для A, а она также
является определением.
10/17/10
Алгоритм вставки Phi функций
Aorig[n] – множество определяемых переменных блока n
foreach (n)
foreach(a from Aorig[n])
defsites[a] =defsites[a] U {n}
Определили все базовые блоки, где определяется переменная a.
foreach(a) {
w =defsites[a];
while(w isn’t empty) {
take n from w;
foreach (Y from DF[n]) {
if(Y !from Aφ[n]}){
insert a=φ(a1,…,ak) at top of Y;
Aφ[n] = Aφ[n] U {Y};
}
if(Y !from Aorig[n])
w = w U {Y};
}
После этого обходится дерево доминирования, и выставляются
правильные номера версий для переменных.
10/17/10
Оптимизации, с использованием SSA формы
Удаление мертвого кода. (Dead code elimination)
Если переменная a_ver не используется, то на удаляется.
Продвижение констант (Constant propagation)
Если в коде программы есть присвоение a_ver=const, то все
использования a_ver заменяются на const.
Если в коде программы есть a_next=φ(с,c), заменяем φ на с.
Продвижение копий (Copy propagation)
Если в коде программы есть присвоение a_n=b_k, заменяем все
использования a_n на b_k.
Если в коде программы есть присвоение a_n=φ(b_k,b_k), заменяем
a_n на b_k.
10/17/10
Спасибо за внимание!
10/17/10
Скачать